序 


Apache Spark 项 目的 高 速 发 展 超出 了 很 多 人 的 预期 。 在 2009 年 到 2013 年 ，Spark 还 是 UC Berkeley 大 学 AMPLab 的 一 个 研究 项 目 ， 因 为 其 架构 设计 得 简洁 和 高 效 ， 逐 
渐 吸 引 了 工业 界 和 学 术 界 的 广泛 关注 。 我 还 记得 2013 年 2 月 份 在 Santa Clara 召 开 的 Strata Conference 上 ， 虽 然 是 长 达 一 整 天 的 Spark 技 术 培 训 ， 大 厅 里 还 是 人 满 为 患 ， 大 
家 都 在 认真 学 习 这 种 新 的 计算 框架 ， 并 被 其 高 速 的 性 能 所 折服 。 尽 管 在 随后 的 一 年 半 时 间 内 ， 主 流 的 Hadoop 厂 商 并 没有 接受 这 个 新 框架 : Cloudera 在 忙 着 开发 自己 的 
Impala 引 擎 ，Hortonworks 经 过 评估 后 认为 可 以 改造 Map/Reduce 来 实现 类 似 Spark 的 DAG 机 制 ， 也 就 是 后 来 的 Tez， 而 MapR 还 在 纠结 是 否 要 全 力 投入 Drill 项 目 。 但 在 
2014 年 的 夏天 ， 第 二 次 Spark Summit 召 开 时 ， 已 经 在 Spark 上 积累 大 量 开发 者 和 用 户 ， 从 互联 网 到 传统 行业 ， 甚 至 是 生物 神经 学 家 都 用 Spark 来 分 析 脑 活动 的 数据 。 在 这 
次 会 议 上 ， 大 部 分 的 Hadoop 厂 商 以 及 应 用 开发 商 开 始 接受 Spark， 并 宣布 支持 Spark 作 为 Hadoop 上 的 另 一 个 计算 引擎 。 自 此 以 后 ，Spark 的 被 接受 程度 飞 速 提高 。 到 2014 
年 10 月 份 ， 几 乎 所 有 的 大 数据 厂商 都 宣布 支持 Spark，Spark 作 者 们 创办 的 DataBricks 公 司 也 宣布 认证 了 50 多 个 以 Spark 为 基础 的 应 用 系统 。 而 到 了 2015 年 ， 大 家 在 谈论 的 
是 Spark 即 将 全 面 蔡 代 Hadoop 中 的 Map/Reduce。 


星 环 科技 从 2013 年 创业 的 第 一 天 ， 就 开始 改造 Spark 引 警 来 开发 批 处 理 和 交互 式 分 析 引 擎 。 今 天 在 星 环 的 全 系列 产品 中 ， 已 经 几乎 看 不 到 Map/Reduce 计 算 框 架 。 星 环 
科技 已 经 证 明了 在 所 有 Map/Reduce 擅 长 的 领域 ，Spark 计 算 引 擎 都 可 以 更 高 效 地 执行 ， 性 能 可 以 提升 数 倍 到 数 十 倍 ， 并 且 可 以 7x24 稳 定 运 行 。 这 也 从 侧面 证 明了 Spark 引 
擎 的 潜力 。 


本 书 详细 剖析 了 spark 核 心 引 警 的 源 代码 及 其 工作 原理 ， 内 容 翔 实 准确 ， 也 是 我 目前 看 到 的 一 本 比较 全 面 解析 Spark Core 的 不 可 多 得 的 好 书 。 特 别 是 有 志 于 Spark 内 核 
开发 的 研发 人 员 ， 仔 细 阅 读本 书 并 研读 代码 ， 将 起 到 事半功倍 的 效果 。 


孙 元 浩 
星 环 科技 创始 人 兼 CTO 


2015 年 8 月 上 海 


诞生 于 2005 年 的 Hadoop 解 决 了 大 数据 的 存储 和 计算 问题 ， 已 经 成 为 大 数据 处 理 的 事实 标准 。 但 是 ， 随 着 数据 规模 的 爆炸 式 增长 和 计算 场景 的 丰富 细 化 ， 使 得 Hadoop 
越 来 越 难以 满足 用 户 的 需求 。 针 对 不 同 的 计算 场景 ， 开 源 社区 和 各 大 互联 网 公司 也 推出 了 各 种 大 数据 分 析 的 平台 ， 引 在 满足 特定 应 用 场景 下 的 计算 需求 。 但 是 ， 众 多 的 平台 
使 得 用 户 不 得 不 为 平台 开发 类 似 的 策略 ， 这 增加 了 运 维 开发 成 本 。 


2009 年 诞生 于 AMPLab 的 Spark， 它 的 设计 目标 就 是 为 大 数据 的 多 种 计算 场景 提供 一 个 通用 的 计算 引擎 ， 同 时 解决 大 数据 处 理 的 4V 难 题 ， 即 Volume (海量 ) 、 
Velocity (快速 ) Variety (多 样 ) 、Value (价值 ) 。 正 如 Spark 的 核心 作者 之 一 的 lon Stoica 所 说 ，“The goal is to build a new generation of data analytics 
software, to be used across academia and industry。”Hadoop 之 父 Doug Cutting 也 说 过 ，MapReduce 引 擎 将 被 Spark 蔡 代 (Use of MapReduce engine for Big 
Data projects will decline, replaced by Apache Spark) 。 可 以 说 ，Spark 自 诞生 之 日 起 就 得 到 了 广泛 的 关注 ， 也 是 近年 来 开源 社区 最 活跃 的 项 目 之 一 。Spark 的 1.X 版 本 
的 每 次 发 布 ， 都 包含 了 数 百 位 贡献 者 的 上 干 次 提交 。 最 新 的 版 本 是 发 布 于 2015 年 6 月 11 日 的 1.4.0， 是 迄今 为 止 Spark 最 大 的 一 次 版 本 发 布 ， 涵 盖 了 210 位 开发 者 的 贡献 。 


Spark 得 到 了 众多 大 数据 公司 的 支持 ， 这 些 公司 包括 Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal 和 和 星 环 科技 ; Spark 也 被 百度 、 阿 里 、 腾 讯 、 京 东 、 携 
旦 、 优 酷 土豆 等 互联 网 公司 应 用 到 多 种 不 同 的 计算 场景 中 ， 并 且 在 实际 的 生产 环境 中 获得 了 很 多 收益 。 当 前 百度 的 Spark 已 应 用 于 凤 莫 、 大 搜索 、 直 达 号 、 百 度 大 数据 等 业 
务 ; 阿里 利用 GraphX 构 建 了 大 规模 的 图 计算 和 图 挖掘 系统 ， 实 现 了 很 多 生产 系统 的 推荐 算法 ; 腾讯 Spark 集 群 达 到 8000 台 的 规模 ， 是 当前 已 知 的 世界 上 最 大 的 Spark 集 
群 。 


但 是 ， 当 前 并 没有 一 本 系统 介绍 Spark 内 核实 现 原理 的 书 ， 而 Spark 内 核 是 Spark SQL, Spark Streaming、MLlib、GraphX 等 多 个 模块 的 基础 ， 这 些 模块 最 终 的 计算 
执行 都 是 由 内 核 模块 完成 的 。 为 了 在 应 用 开发 中 做 到 游 妨 有 余 ， 在 性 能 调 优 时 做 到 有 的 放 矢 ， 需 要 了 解 内 核 模 块 的 实现 原理 。 笔 者 从 Spark 发 布 版 本 0.8.1 时 开始 关注 
Spark， 并 深入 学 习 内 核 模块 的 架构 实现 原理 。Spark 在 1.0 发 布 后 ， 内 核 模块 趋 于 稳定 ， 虽 然 内 核 模块 依旧 会 有 不 断 地 改进 和 完善 ， 但 是 整体 的 设计 思想 和 实现 方法 是 不 会 
变 的 ， 因 此 笔者 决定 为 Spark 社 区 的 用 户 和 关注 者 写 一 本 书 ， 详 细 介绍 Spark 内 核 模块 的 实现 原理 。 最 终 ， 笔 者 基于 Spark 1.2.0 版 本 完成 了 本 书 。 


写作 是 一 件 严肃 的 事情 ， 同 样 是 一 份 苦 差事 ， 尤 其 是 在 工作 比较 忙 的 时 候 。 本 书 在 半年 前 就 完成 了 基本 的 框架 ， 但 是 随后 又 对 本 书 进行 了 多 次 修改 和 完善 。 笔 者 认为 ， 
对 一 本 架构 分 析 的 书 ， 一 个 最 基本 的 要 求 就 是 基于 源码 如 实 描述 系统 的 实现 ， 能 做 到 这 点 就 是 一 本 及 格 的 书 ; 如 果 能 做 到 分 析 这 个 架构 的 好 坏 ， 指 出 架构 改进 的 方案 ， 那 么 
就 是 一 本 质量 比较 好 的 书 ; 如 果 能 高 屋 建 领地 进行 再 次 抽象 ， 指 出 类 似 架构 不 同 实现 的 优 委 ， 抽 象 出 一 些 理论 ， 那 么 这 就 是 一 本 质量 上 乘 ， 可 以 当 作 教科 书 的 书 。 我 深 知 自 
己 的 能 力 水 平 ， 希 望 这 本 书 最 起 码 是 一 本 及 格 的 书 ， 即 能 基于 源码 如 实 描述 系统 的 实现 ， 对 那些 希望 深入 学 习 Spark 架 构 实现 的 同仁 有 所 帮助 。 


目标 读者 
本 书 适 合 大 数据 领域 的 架构 师 、 运 维 人 员 ， 尤 其 是 Spark 领 域 的 从 业 人 员 阅 读 ， 也 适合 作为 研究 生 和 高 年 级 的 本 科 生 大 数据 领域 分 布 式 架构 具体 实现 原理 的 参考 资料 。 


内 容 概述 


第 1 章 介绍 了 Spark 的 技术 背景 和 特点 ， 给 出 了 架构 的 整体 概述 ， 并 简单 介绍 了 Spark 的 生态 圈 。 

第 2 章 介绍 了 Spark 源 码 如 何 获取 和 学 习 环境 如 何 搭建 。 

第 3 章 是 RDD 的 详细 介绍 ， 介 绍 了 RDD 的 定义 和 Spark 对 于 DAG 的 实现 ， 最 后 通过 RDD 计 算 的 详细 介绍 ， 讲 解 了 Spark 对 于 计算 的 实现 原理 。 

第 4 章 详细 介绍 任务 调度 的 实现 ， 包 括 如 何 通 过 DAG 来 生成 计算 任务 ， 最 后 通过 “Word Count” 来 加 深 对 这 个 实现 过 程 的 理解 。 

第 5 章 介绍 了 Spark 的 运行 模式 ， 尤 其 是 Standalone 模 式 。Standalone 是 Spark 自 身 实现 的 资源 管理 和 调度 的 模块 ， 这 里 会 详细 介绍 它 的 实现 原理 。 


第 6 章 是 Executor 模 块 的 详细 讲解 。Executor 是 最 终 执行 计算 任务 的 单元 ， 这 章 将 详细 介绍 Executor 的 实现 原理 ， 包 括 Executor 的 分 配 、Task 在 Executor 的 详细 执行 


过 程 。 


第 7 章 详细 介绍 了 Spark 对 于 Shuffle 的 实现 原理 ， 包 括 基于 Hash 和 基于 排序 的 实现 。 除 了 详细 阐述 基于 Hash 和 排序 的 Shuffle 写 和 Shuffle 读 之 外 ， 还 介绍 了 Shuffle 
Pluggable 框 架 ， 为 需要 实现 特定 Shuffle 逻 辑 的 读者 介绍 其 实现 原理 。 


第 8 章 详 细 介绍 了 Spark 的 storage 模块 ， 在 详细 介绍 了 模块 的 架构 后 详细 解析 了 不 同 存储 级 别 的 实现 细节 。 


第 9 章 介绍 了 Spark 在 百度 、 腾 讯 和 阿里 等 国内 互联 网 领域 的 应 用 现状 。 
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联系 方式 


由 于 本 书 的 写作 都 是 在 业余 时 间 完 成 ， 加 上 笔者 自身 水 平 有 限 ， 错 误 在 所 难免 ， 敬 请 读者 谅解 ， 如 果 有 任何 问题 ， 可 以 通过 下 列 方式 与 Spark 的 关注 者 和 使 用 者 进行 交 


Spark 架 构 实现 原理 交流 QQ 群 : 473842835 
Spark 用 户 使 用 交流 QQ 群 : 473853269 

也 可 以 直接 与 笔者 联系 : 

邮箱 : anzhsoft@ gmail.com 

新 浪 微 博 : @anzhsoft 


个 人 博客 : http;//blog.csdn.net/anzhsoft 


第 1 章 Spark 简介 


Apache Spark 是 一 种 快速 、 通 用 、 可 扩展 的 大 数据 分 析 引 擎 。 它 是 不 断 壮 大 的 大 数据 分 析 解 决 方案 家 族 中 备 受 关注 的 明星 成 员 ， 为 分 布 式 数据 集 的 处 理 提供 了 一 个 有 
效 框架 ， 并 以 高 效 的 方式 处 理 分 布 式 数据 集 。Spark 集 批 处 理 、 实 时 流 处 理 、 交 互 式 查询 与 图 计算 于 一 体 ， 避 免 了 多 种 运算 场景 下 需要 部 署 不 同 集群 带 来 的 资源 浪费 。 
Spark 在 过 去 的 一 年 中 获得 了 极 大 关注 ， 并 得 到 广泛 应 用 ，Spark 社 区 也 成 为 大 数据 领域 和 Apache 软 件 基金 会 最 活跃 的 项 目 之 一 ， 其 活跃 度 甚 至 远 超 曾经 只 能 望 其 项 背 的 
Hadoop。 


1.1 _ Spark 的 技术 背景 


无 论 是 工业 界 还 是 学 术 界 ， 都 已 经 广泛 使 用 高 级 集群 编程 模型 来 处 理 日 益 增长 的 数据 ， 如 MapReduce 和 Dryad。 这 些 系统 将 分 布 式 编程 简化 为 自动 提供 位 置 感知 性 调 
度 、 容 错 以 及 负载 均衡 ， 使 得 大 量 用 户 能 够 在 商用 集群 上 分 析 超 大 数据 集 。 大 多 数 现 有 的 集群 计算 系统 都 是 基于 非 循环 的 数据 流 模 型 。 即 从 稳定 的 物理 存储 (如 分 布 式 文件 
系统 ) 中 加 载 记录 ， 记 录 被 传 入 由 一 组 确定 性 操作 构成 的 DAG (Directed Acyclic Graph， 有 向 无 环 图 ) ， 然 后 写 回 稳定 存储 。DAG 数 据 流 图 能 够 在 运行 时 自动 实现 任务 调 
度 和 故障 恢复 。 


尽管 非 循环 数据 流 是 一 种 很 强大 的 抽象 方法 ， 但 仍然 有 些 应 用 无 法 使 用 这 种 方式 描述 。 这 类 应 用 包括 : @ 机 器 学 习 和 图 应 用 中 常用 的 迭代 算法 (每 一 步 对 数据 执行 相似 
的 函数 ) ; @ 交 互 式 数据 挖掘 工具 (用 户 反 复查 询 一 个 数据 子 集 ) 。 基 于 数据 流 的 框架 并 不 明确 支持 工作 集 ， 所 以 需要 将 数据 输出 到 磁盘 ， 然 后 在 每 次 查询 时 重新 加 载 ， 这 
会 带 来 较 大 的 开销 。 针 对 上 述 问 题 ，Spark 实 现 了 一 种 分 布 式 的 内 存 抽 象 ， 称 为 弹性 分 布 式 数 据 集 (Resilient Distributed Dataset, RDD) 。 它 支持 基于 工作 集 的 应 用 
同时 具有 数据 流 模型 的 特点 : 自动 容错 、 位 置 感知 性 调度 和 可 伸缩 性 。RDD 人 允许 用 户 在 执行 多 个 查询 时 显 式 地 将 工作 集 组 存在 内 存 中 ， 后 续 的 查询 能 够 重用 工作 集 ， 这 极 大 
地 提升 了 查询 速度 。 


RDD 提 供 了 一 种 高 度 受 限 的 共享 内 存 模 型 ， 即 RDD 是 只 读 记录 分 区 的 集合 ， 只 能 通过 在 其 他 RDD 执 行 确定 的 转换 操作 (如 map、join 和 groupBy) 而 创建 ， 然 而 这 些 
限制 使 得 实现 容错 的 开销 很 低 。 与 分 布 式 共享 内 存 系统 需要 付出 高 昂 代价 的 检查 点 和 回 滚 机 制 不 同 ，RDD 通 过 Lineage 来 重建 丢失 的 分 区 : 一 个 RDD 中 包含 了 如 何 从 其 他 
RDD 衍 生 所 必需 的 相关 信息 ， 从 而 不 需要 检查 点 操作 就 可 以 重建 丢失 的 数据 分 区 。 尽 管 RDD 不 是 一 个 通用 的 共享 内 存 抽象 ， 但 它 具备 了 良好 的 描述 能 力 、 可 伸缩 性 和 可 靠 
性 ， 能 够 广泛 适用 于 数据 并 行 类 应 用 。 


1.2 Spark 的 优点 


Spark 和 凭借 什么 在 众多 的 大 数据 分 析 处 理 平台 中 脱颖而出 呢 ?” 这 得 益 于 Spark 的 几 个 主要 优点 ， 具 体 如 下 所 示 。 


第 一 个 优点 是 速度 。 与 Hadoop 的 MapReduce 相 比 ，Spark 基 于 内 存 的 运算 要 快 100 倍 以 上 (如 图 1-1 所 示 ) ;而 基于 硬盘 的 运算 也 要 快 10 倍 以 上 。Spark 实 现 了 高 效 
的 DAG 执 行 引擎 ， 可 以 通过 基于 内 存 来 高 效 处 理 数据 流 。 
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图 1-1 逻辑 回归 在 Hadoop、Spatk 的 运算 速度 对 比 


第 二 个 优点 就 是 易 用 。Spark 支 持 java、Python 和 Scala 的 AP1， 还 支持 超过 80 种 高 级 算法 ， 使 用 户 可 以 快速 构建 不 同 的 应 用 。 而 且 Spark 支 持 交互 式 的 Python 和 Scala 
的 shell， 这 意味 着 可 以 非常 方便 地 在 这 些 shell 中 使 用 Spark 集 群 来 验证 解决 问题 的 方法 ， 而 不 是 像 以 前 一 样 ， 需 要 打包 、 上 传 集群 、 验 证 等 。 这 对 于 原型 开发 非常 重要 。 


ПШ 


第 三 个 优点 是 通用 性 。Spark 提 供 了 统一 的 解决 方案 。Spark 可 以 用 于 批 处 理 、 交 互 式 查 询 (通过 Spark SQL) 、 实 时 流 处 理 (通过 Spark Streaming) 、 机 器 学 习 GB 


过 Spark MLlib) 和 图 计算 (通过 Spark GraphX) ， 如 图 1-2 所 示 。 这 些 不 同类 型 的 处 理 都 可 以 在 同一 个 应 用 中 无 颖 使 用 。Spark 统 一 的 解决 方案 非常 具有 吸引 力 ， 毕 竟 任 
何 公司 都 想 用 统一 的 平台 去 处 理 遇 到 的 问题 ， 减 少 开 发 和 维护 的 人 力 成 本 和 部 署 平台 的 物力 成 本 。 当 然 还 有 ， 作 为 统一 的 解决 方案 ，Spark 并 没有 以 牺牲 性 能 为 代价 。 相 
反 ， 在 性 能 方面 ，Spark 具 有 很 大 的 优势 。 


图 1-2 ”Spatk 支 持 丰富 的 应 用 计算 场景 


第 四 个 优点 就 是 可 融合 性 。Spark 可 以 非常 方便 地 与 其 他 的 开源 产品 进行 融合 。 比 如 ，Spark 可 以 使 用 Hadoop 的 YARN 和 Apache Mesos 作 为 它 的 资源 管理 和 调度 器 ， 
并 且 可 以 处 理 所 有 Hadoop 支 持 的 数据 ， 包 括 HDFS、HBase 和 Cassandra 等 。 这 对 于 已 经 部 署 Hadoop 集 群 的 用 户 特别 重要 ， 因 为 不 需要 做 任何 数据 迁移 就 可 以 使 用 Spark 
的 强大 处 理 能 力 。Spark 也 可 以 不 依赖 于 第 三 方 的 资源 管理 和 调度 器 ， 它 实现 了 Standalone 作 为 其 内 置 的 资源 管理 和 调度 框架 ， 这 样 进一步 降低 了 Spark 的 使 用 门槛 ， 使 得 
所 有 人 都 可 以 非常 容易 地 部 署 和 使 用 Spark。 此 外 ，Spark 还 提供 了 在 EC2 上 部 署 Standalone 的 Spark 集 群 的 工具 。 


13 ”Spark 架 构 综述 


Spark 的 整体 架构 如 图 1-3 所 示 。 其 中 ，Driver 是 用 户 编写 的 数据 处 理 逻 辑 ， 这 个 逻辑 中 包含 用 户 创建 的 SparkContext。SparkContext 是 用 户 逻 辑 与 Spark 集 群 主要 的 
交互 接口 ， 它 会 和 Cluster Manager 交 互 ， 包 括 向 它 申请 计算 资源 等 。Cluster Manager 负 责 集群 的 资源 管理 和 调度 ， 现 在 支持 Standalone、Apache Mesos 和 Hadoop 的 
YARN。Worker Node 是 集群 中 可 以 执行 计算 任务 的 节点 。Executor 是 在 一 个 Worker Node 上 为 某 应 用 启动 的 一 个 进程 ， 该 进程 负责 运行 任务 ， 并 且 负 责 将 数据 存在 内 存 
或 者 磁盘 上 。Task 是 被 送 到 某 个 Executor 上 的 计算 单元 。 每 个 应 用 都 有 各 自 独立 的 Executor， 计 算 最 终 在 计算 节点 的 Executor 中 执行 。 


Worker Node 


SparkContext lo 


图 1-3 ”整体 架构 图 


用 户 程 序 从 最 开始 的 提交 到 最 终 的 计算 执行 ， 需 要 经 历 以 下 几 个 阶段 : 


1) 用 户 程序 创建 SparkContext 时 ， 新 创建 的 SparkContext 实 例会 连接 到 Cluster Manager. Cluster Manager 会 根据 用 户 提交 时 设置 的 CPU 和 内 存 等 信息 为 本 次 提 


交 分 配 计算 资源 ， 启 动 Executor。 


2) Driver 会 将 用 户 程序 划分 为 不 同 的 执行 阶段 ， 每 个 执行 阶段 由 一 组 完全 相同 的 Task 组 成 ， 这 些 Task 分 别 作用 于 待 处 理 数据 的 不 同 分 区 。 在 阶段 划分 完成 和 Task 创 建 


后 ，Driver 会 向 Executor 发 送 Task。 


3) Executor 在 接收 到 Task 后 ， 会 下 载 Task 的 运行 时 依赖 ， 在 准备 好 Task 的 执行 环境 后 ， 会 开始 执行 Task， 并 且 将 Task 的 运行 状态 汇报 给 Driver。 


4) Driver 会 根据 收 到 的 Task 的 运行 状态 来 处 理 不 同 的 状态 更 新 。Task 分 为 两 种 : 一 种 是 Shuffle Map Task， 它 实现 数据 的 重新 洗 牌 ， 洗 牌 的 结果 保存 到 Executor 所 在 
节点 的 文件 系统 中 ; 另外 一 种 是 Result Task， 它 负责 生成 结果 数据 。 


5) Driver 会 不 断 地 调用 Task， 将 Task 发 送 到 Executor 执 行 ， 在 所 有 的 Task 都 正确 执行 或 者 超过 执行 次 数 的 限制 仍然 没有 执行 成 功 时 停止。 


14 _ Spark 核心 组 件 概述 


图 1-2 简 单 介 绍 了 Spark 支 持 的 丰富 的 应 用 计算 场景 ， 这 是 通过 在 Spark Core 上 构建 多 个 组 件 来 完成 的 。 比 如 Spark Streaming 实 现 了 实时 流 处 理 ; GraphX 实 现 了 图 计 
Ж; MLlib 实 现 了 很 多 机 器 学 习 算法 ; Spark SQL 实现 了 基于 Spark 的 交互 式 查询 。 


1.5 _ Spark 的 整体 代码 结构 规模 


Spark Core 是 Spark 的 核心 ， 它 体现 了 Spark 的 核心 设计 思想 。Spark SQL、MLlib、GraphX 和 Spark Streaming 都 是 基于 Spark Core 的 实现 和 衍生 。 在 Spark 1.2.0 版 


本 中 ，Spark Core 包 含 了 近 6.5 万 行 Scala 源 码 。 其 中 ， 不 同 


模块 之 间 的 代码 统计 见 图 1-7。 仅 代码 规模 上 ， 看 起 来 好 像 远 没有 想象 中 的 那么 复杂 ; 但 是 如 果 没有 借助 Scala 语 


言 的 强大 表现 力 ， 比 如 使 用 C++ 或 者 Java 的 话 ， 代 码 规模 可 


Spark 单 纯 代 码 的 增长 速度 不 断 加 快 。 


能 要 大 得 多 。 还 可 以 从 另外 一 个 角度 来 评估 当前 的 代码 规模 ，Spark 的 广泛 应 用 导致 新 特性 的 不 断 加 入 ， 使 得 


Spark Core: 64 350 LOC hasc: 


scheduler:8334 serializer:558 sql: 
3387 
storage:5251 ui:3978 
Shuffle:1356 Rdd:6405 
Util:10126 Input:609 


streaming: graphx: 
11760 5793 


图 1-7 Spark h9 ЖЖ 25 2544 А 


228 ”Spark 学 习 环境 的 搭建 


本 章 主要 介绍 源码 阅读 环境 的 搭建 ， 包 括 Spark 源 码 的 获取 和 编译 ， 安 装 和 部 署 以 及 简单 的 设置 和 使 用 。 另 外 ， 通 过 订阅 Spark 的 邮件 组 user@spark.apache.org 可 以 
查看 大 家 使 用 时 遇 到 的 问题 和 这 些 问题 的 解决 方法 ; 如 果 希 望 贡献 社区 ， 可 以 订阅 邮件 组 dev@spark.apache.org 来 了 解 社区 关于 开发 的 相关 讨论 。 遇 到 问题 或 者 希望 更 进 
一 步 地 了 解 开发 状态 ， 可 以 访问 Spark JIRA 的 主页 https://issues.apache.org/jira/browse/SPARK， 了 解 Spark 对 于 某 个 问题 的 持续 改进 ， 帮 助 更 好 地 理解 架构 的 演进 。 


2.1 源码 的 获取 与 编译 


2.1.1 源码 获取 


可 以 到 Spark 官 网 的 http://spark.apache.org/downloads.html 页 面 下 载 最 新 的 Spark 源 码 。 


Spark 源 码 在 Github 上 的 主页 地 址 是 https://github.com/apache/spark， 读 者 也 可 以 通过 git 命 令 获取 最 新 的 源码 : git clone 
https://github.com/apache/spark.git。 由 于 服务 器 在 美国 ， 因 此 下 载 的 速度 会 比较 慢 ， 如 果 中 途 遇 到 失败 ， 可 以 重复 执行 上 述 命令 直至 成 功 。 


2.2 ”构建 Spark 的 源码 阅读 环境 
查看 Spark 源 码 最 好 的 IDE 就 是 Intellj IDEA， 这 个 也 是 大 部 分 Spark 开 发 者 都 在 使 用 的 。1DEA 分 两 个 版 本 ， 一 个 是 免费 的 社区 版 ， 一 个 是 收费 的 商业 发 行 版 。 不 过 
Apache 的 贡献 者 可 以 免费 获得 商业 发 行 版 的 使 用 权 。 


当然 使 用 Eclipse 也 是 可 以 的 ， 读 者 可 以 访问 http://scala-ide.org/ 下 载 和 安装 Eclipse， 在 这 里 就 不 再 乾 述 。 不 过 笔者 认为 使 用 Eclipse 阅读 Spark 源 码 的 体验 远 不 如 使 用 
Intelli) IDEA， 推 荐 大 家 都 去 尝试 ， 即 使 您 可 能 对 Eclipse 非常 熟悉 。 


1DEA 的 社区 版 和 商业 发 行 版 都 可 以 从 https://www-.jetbrains.comyidea/download/ 获 得 。IDEA 有 三 个 版 本 : Windows 版 、MAC OS 版 和 Linux 版 。 下 载 后 直接 安装 
即 可 。 


为 了 阅读 和 构建 Spark 的 开发 环境 ， 需 要 为 IDEA 安 装 Scala 揪 件 。 首 先 单 击 图 2-1 中 红 框 内 的 “Configure”。 接 着 单 击 图 2-2 中 的 “Plugins”。 然 后 单 击 左下 角 
RS "Install JetBrains plugin" (图 2-3) 。 在 新 的 界面 图 2-4 中 输入 “Scala” 回 车 ， 就 可 以 看 到 Scala 插 件 了 ， 直 接 单 击 右 侧 的 “Install plugin” 就 可 以 安装 了 。 
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图 2-1 单 击 “Configure” 以 安装 Scala 插 件 
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图 2-2 4% "Plugins" 
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图 2-4 搜索 并 安装 Scala 


然后 要 为 Spark 生 成 1DEA 所 需要 的 工程 文件 ， 在 源 代码 的 根 目录 执行 下 面 的 命令 : 


./sbt/sbt?gen-idea 


命令 成 功 执行 后 ，SBT 的 工程 文件 就 生成 了 。 接 下 来 直接 导入 工程 即 可 ， 如 图 2-5 所 示 。 
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图 2-5 “导入 工程 


在 选择 了 工程 所 在 的 根 目录 后 ， 选 择 导 入 “SBT project”， 如 图 2-6 所 示 。 


(J Create project from existing sources 


(*) Import project from external model 


© Eclipse 
Flash Builder 
(€ Gradle 


m Maven 
SBT project 


图 2-6 选择 导入 “SBT project 


选择 了 图 2-7 所 示 的 复 选 框 后 ， 单 击 “Finish” 即 可 完成 工程 的 建立 。 


完成 导入 后 就 可 以 开始 阅读 源码 了 。 


eoo Import Project 


SBT project: /Users VIENNE project /spark 
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» Global SBT settings 
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图 2-7 完成 导入 
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本 章 主要 介绍 了 Spark 学 习 环境 的 搭建 ， 包 括 源码 的 获取 和 编译 ，Spark 源 码 阅 读 环境 的 建立 等 。 接 下 来 ， 将 逐步 介绍 Spark Core 的 各 个 模块 的 实现 原理 和 设计 思想 。 


第 3 章 RDD 实 现 详解 


RDD 是 Spark 最 基本 也 是 最 根本 的 数据 抽象 ， 它 具备 像 MapReduce 等 数据 流 模型 的 容错 性 ， 并 且 允 许 开发 人 员 在 大 型 集群 上 执行 基于 内 存 的 计算 。 现 有 的 数据 流 系统 
对 两 种 应 用 的 处 理 并 不 高 效 : 一 是 迭代 式 算 法 ， 这 在 图 应 用 和 机 器 学 习 领 域 很 常见 ， 二 是 交互 式 数据 挖掘 工具 。 这 两 种 情况 下 ， 将 数据 保存 在 内 存 中 能 够 极 大 地 提高 性 能 。 
为 了 有 效 地 实现 容错 ，RDD 提 供 了 一 种 高 度 受 限 的 共享 内 存 ， 即 RDD 是 只 读 的 ， 并 且 只 能 通过 其 他 RDD 上 的 批量 操作 来 创建 。 尽 管 如 此 ，RDD 仍 然 足以 表示 很 多 类 型 的 计 
算 , 包括 MapReduce 和 专用 的 迭代 编程 模型 (如 Pregel) 等 。Spark 实 现 的 RDD 在 迭代 计算 方面 比 Hadoop 快 20 多 倍 ， 同 时 还 可 以 在 5~7 秒 内 交互 式 地 查询 1TB 数 据 集 。 


3.1 概述 


Spark 的 目标 是 为 基于 工作 集 的 应 用 ( 即 多 个 并 行 操作 重用 中 间 结 果 的 应 用 ) 提供 抽象 ， 同 时 保持 MapReduce 及 其 相关 模型 的 优势 特性 ， 即 自动 容错 、 位 置 感知 性 调 
度 和 可 伸缩 性 。RDD 比 数据 流 模型 更 易于 编程 ， 同 时 基于 工作 集 的 计算 也 具有 良好 的 描述 能 力 。 


在 这 些 特 性 中 ， 最 难 实现 的 是 容错 性 。 一 般 来 说 ， 分 布 式 数据 集 的 容错 性 有 两 种 方式 : 数据 检查 点 和 记录 数据 的 更 新 。 我 们 面向 的 是 大 规模 数据 分 析 ， 数 据 检 查 点 操作 
成 本 很 高 : 需要 通过 数据 中 心 的 网 络 连 接 在 机 器 之 间 复 制 庞 大 的 数据 集 ， 而 网 络 带 宽 往 往 比 内 存 带 宽 低 得 多 ， 同 时 还 需要 消耗 更 多 的 存储 资源 (在 内 存 中 复制 数据 可 以 减少 
需要 缓存 的 数据 量 ， 而 存储 到 磁盘 则 会 降低 应 用 程序 速度 ) 。 所 以 ， 我 们 选择 记录 更 新 的 方式 。 但 是 ， 如 果 更 新 太 多 ， 记 录 更 新 成 本 也 不 低 。 因 此 ，RDD 只 支持 粗 粒度 转 
换 ， 即 在 大 量 记录 上 执行 的 单个 操作 。 将 创建 RDD 的 一 系列 转换 记录 下 来 ( 即 Lineage) ， 以 便 恢复 丢失 的 分 区 。 


虽然 只 支持 粗 粒度 转换 限制 了 编程 模型 ， 但 RDD 仍 然 可 以 很 好 地 适用 于 很 多 应 用 ， 特 别 是 支持 数据 并 行 的 批量 分 析 应 用 ， 包 括 数 据 挖掘 、 机 器 学 习 、 图 算法 等 ， 因 为 这 
些 程序 通常 都 会 在 很 多 记录 上 执行 相同 的 操作 。RDD 不 太 适 合 那些 异步 更 新 共享 状态 的 应 用 ， 例 如 并 行 Web 网 络 聆 虫 。 因 此 ，Spark 的 目标 是 为 大 多 数 分 析 型 应 用 提供 有 效 
的 编程 模型 ， 而 其 他 类 型 的 应 用 则 交 给 专门 的 系统 。 


3.2 什么 是 RDD 


什么 是 RDD? RDD 是 只 读 的 、 分 区 记录 的 集合 。RDD 只 能 基于 在 稳定 物理 存储 中 的 数据 集 和 其 他 已 有 的 RDD 上 执行 确定 性 操作 来 创建 。 这 些 确定 性 操作 称 为 转换 ， 如 
map、filter、groupBy、join。RDD 不 需要 物化 。RDD 含 有 如 何 从 其 他 RDD 衍 生 ( 即 计算 ) 出 本 RDD 的 相关 信息 ( 即 Lineage) ， 因 此 在 RDD 部 分 分 区 数据 丢失 的 时 候 可 
以 从 物理 存储 的 数据 计算 出 相应 的 RDD 分 区 。 


RDD 支 持 基于 工作 集 的 应 用 ， 同 时 具有 数据 流 模型 的 特点 : 自动 容错 、 位 置 感知 性 调度 和 可 伸缩 性 。RDD 人 允许 用 户 在 执行 多 个 查询 时 显 式 地 将 工作 集 缓存 在 内 存 中 ， 
后 续 的 查询 能 够 重用 工作 集 ， 这 极 大 地 提升 了 查询 速度 。 


每 个 DD 有 5 个 主要 的 属性 : 


1) 一 组 分 片 (Partition) ， 即 数据 集 的 基本 组 成 单位 。 对 于 RDD 来 说 ， 每 个 分 片 都 会 被 一 个 计算 任务 处 理 ， 并 决定 并 行 计 算 的 粒度 。 用 户 可 以 在 创建 RDD 时 指定 RDD 
的 分 片 个 数 ， 如 果 没有 指定 ， 那 么 就 会 采用 默认 值 。 默 认 值 就 是 程序 所 分 配 到 的 CPU Core 的 数目 。 图 3-1 描 述 了 分 区 存储 的 计算 模型 ， 每 个 分 配 的 存储 是 由 BlockManager 
实现 的 。 每 个 分 区 都 会 被 逻辑 映射 成 BlockManager 的 一 个 Block， 而 这 个 Block 会 被 一 个 Task 负 责 计算 。 


2) 一 个 计算 每 个 分 区 的 函数 。Spark 中 RDD 的 计算 是 以 分 片 为 单位 的 ， 每 个 RDD 都 会 实现 compute 函 数 以 达到 这 个 目的 。compute 函 数 会 对 迭代 器 进行 复合 ， 不 需要 
保存 每 次 计算 的 结果 。 详 情 请 参阅 3.4.5 节 。 


3) RDD 之 间 的 依赖 关系 。RDD 的 每 次 转换 都 会 生成 一 个 新 的 RDD， 所 以 RDD 之 间 就 会 形成 类 似 于 流水 线 一 样 的 前 后 依赖 关系 。 在 部 分 分 区 数据 丢失 时 ，Spark 可 以 通 
过 这 个 依赖 关系 重新 计算 丢失 的 分 区 数据 ， 而 不 是 对 RDD 的 所 有 分 区 进行 重新 计算 。 


4) 一 个 Partitioner， 即 RDD 的 分 片 函数 。 当 前 Spark 中 实现 了 两 种 类 型 的 分 片 函 数 ， 一 个 是 基于 哈 希 的 HashPartitioner， 另 外 一 个 是 基于 范围 的 RangepPartitioner。 
只 有 对 于 key-value 的 RDD， 才 会 有 Partitioner， 非 key-value 的 RDD 的 Parititioner 的 值 是 None。Partitioner 函 数 不 但 决定 了 RDD 本 身 的 分 片 数 量 ， 也 决定 了 parent RDD 
Shuffle 输 出 时 的 分 片 数量 。 


5) 一 个 列表 ， 存 储存 取 每 个 Partition 的 优先 位 置 (preferred location) 。 对 于 一 个 HDFS 文 件 来 说 ， 这 个 列表 保存 的 就 是 每 个 Partition 所 在 的 块 的 位 置 。 按 照 “ 移 动 
数据 不 如 移动 计算 ”的 理念 ，Spark 在 进行 任务 调度 的 时 候 ， 会 尽 可 能 地 将 计算 任务 分 配 到 其 所 要 处 理 数据 块 的 存储 位 置 。 
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图 3-1 RDD Pattition 的 存储 和 计算 模型 


3.3 ”RDD 的 转换 和 DAG 的 生成 


Spark 会 根据 用 户 提交 的 计算 逻辑 中 的 RDD 的 转换 和 动作 来 生成 RDD 之 间 的 依赖 关系 ， 同 时 这 个 计算 链 也 就 生成 了 逻辑 上 的 DAG。 接 下 来 以 “Word Count" 790, Е 
细 描 述 这 个 DAG 生 成 的 实现 过 程 。 


Spark Scala 版 本 的 Word Count 程 序 如 下 : 


val file = spark.textFile ("hdfs://http://www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15369/OEBPS/Text/...") 
val counts = file.flatMap(line => line.split(" ")) 

.map(word => (word, 1)) 

.reduceByKey( + ) 
counts.saveAsTextFile ("hdfs://http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15369/OEBPS/Text/...") 


On 必 wm 


file 和 counts 都 是 RDD， 其 中 file 是 从 HDFS 上 读 取 文件 并 创建 了 RDD， 而 counts 是 在 file 的 基础 上 通过 flatMap、map 和 reduceByKey 这 三 个 RDD 转 换 生 成 的 。 最 
后 ，counts 调 用 了 动作 saveAsTextFile， 用 户 的 计算 逻辑 就 从 这 里 开始 提交 的 集群 进行 计算 。 那 么 上 面 这 5 行 代码 的 具体 实现 是 什么 呢 ? 


1) 行 1: spark 是 org.apache.spark.SparkContext 的 实例 ， 它 是 用 户 程序 和 Spark 的 交互 接口 。spark 会 负责 连接 到 集群 管理 者 ， 并 根据 用 户 设置 或 者 系统 默认 设置 来 
申请 计算 资源 ， 完 成 RDD 的 创建 等 。 


spark.textFile ("hdfs: //http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15369/OEBPS/Text/...") 就 完成 
了 一 个 org.apache.spark.rdd.HadoopRDD 的 创建 ， 并 且 完 成 了 一 次 RDD 的 转换 : 通过 map 转 换 到 一 个 org.apache.spark.rdd.MapPartitions-RDD。 也 就 是 说 ，file 实 际 
上 是 一 个 MapPartitionsRDD， 它 保存 了 文件 的 所 有 行 的 数据 内 容 。 


2) 行 2: 将 file 中 的 所 有 行 的 内 容 ， 以 空格 分 隔 为 单词 的 列表 ， 然 后 将 这 个 按照 行 构成 的 单词 列表 合并 为 一 个 列表 。 最 后 ， 以 每 个 单词 为 元 素 的 列表 被 保存 到 
MapPartitionsRDD。 


3) 行 3: 将 第 2 步 生成 的 MapPartitionsRDD 再 次 经 过 map 将 每 个 单词 word 转 为 (word，1) 的 元 组 。 这 些 元 组 最 终 被 放 到 一 个 MapPartitionsRDD 中 。 


4) 行 4: 首先 会 生成 一 个 MapPartitionsRDD， 起 到 map 端 combiner 的 作用 ; 然后 会 生成 一 个 ShuffledRDD， 它 从 上 一 个 RDD 的 输出 读 取 数 据 ， 作 为 reducer 的 开 
台 ; 最 后 ， 还 会 生成 一 个 MapPartitionsRDD， 起 到 reducer 端 reduce 的 作用 。 


5) 行 5: 首先 会 生成 一 个 MapPartitionsRDD， 这 个 RDD 会 通过 调用 org.apache.spark.rdd.PairRDDFunctions#saveAsHadoopDataset 向 HDFS 输 出 RDD 的 数据 内 
。 最 后 ， 调 用 org.apache.spark.SparkContext#runJob 向 集群 提交 这 个 计算 任务 。 


} 


1j 


RDD 之 间 的 关系 可 以 从 两 个 维度 来 理解 : 一 个 是 RDD 是 从 哪些 RDD 转 换 而 来 ， 也 就 是 RDD 的 parent RDD (s) 是 什么 ) 还 有 就 是 依赖 于 parent RDD (s) 的 哪些 
Partition (s) 。 这 个 关系 ， 就 是 RDD 之 间 的 依赖 ，org.apache.spark.Dependency。 根 据 依赖 于 parent RDD (s) 的 Partitions 的 不 同情 况 ，Spark 将 这 种 依赖 分 为 两 种 ， 
一 种 是 宽 依 赖 ， 一 种 是 窄 依赖 。 


34 ”RDD 的 计算 


3.4.1 Task 简 介 


原始 的 RDD 经 过 一 系列 转换 后 ， 会 在 最 后 一 个 RDD 上 触发 一 个 动作 ， 这 个 动作 会 生成 一 个 Job。 在 Job 被 划分 为 一 批 计 算 任务 (Task) 后 ， 这 批 Task 会 被 提交 到 集群 上 
的 计算 节点 去 计算 。 计 算 节点 执行 计算 逻辑 的 部 分 称 为 Executor。Executor 在 准备 好 Task 的 运行 时 环境 后 ， 会 通过 调用 org.apache.spark.scheduler.Task#run 来 执行 计 
算 。Spark 的 Task 分 为 两 种 : 


1) org.apache.spark.scheduler.ShuffleMapTask 
2) org.apache.spark.scheduler.ResultTask 


简单 来 说 ，DAG 的 最 后 一 个 阶段 会 为 每 个 结果 的 Partition 生 成 一 个 ResultTask， 其 余 所 有 的 阶段 都 会 生成 ShuffleMapTask。 生 成 的 Task 会 被 发 送 到 已 经 启动 的 
Executor 上 ， 由 Executor 来 完成 计算 任务 的 执行 ， 执 行 过 程 的 实现 在 org.apache.spark.executor.Executor.TaskRunner#run。 第 6 章 会 介绍 这 一 部 分 的 实现 原理 和 设计 思 


想 。 


3.5 RDD 的 容错 机 制 


RDD 实 现 了 基于 Lineage 的 容错 机 制 。RDD 的 转换 关系 ， 构 成 了 compute chain， 可 以 把 这 个 compute chain 认 为 是 RDD 之 间 演 化 的 Lineage。 在 部 分 计算 结果 丢失 
时 ， 只 需要 根据 这 个 Lineage 重 算 即 可 。 


图 3-11 中 ， 假 如 RDD2 所 在 的 计算 作业 先 计算 的 话 ， 那 么 计算 完成 后 RDD1 的 结果 就 会 被 缓存 起 来 。 缓 存 起 来 的 结果 会 被 后 续 的 计算 使 用 。 图 中 的 示意 是 说 RDD1 的 
Partition2 缓 存 丢 失 。 如 果 现 在 计算 RDD3 所 在 的 作业 ， 那 么 它 所 依赖 的 Partition0、1、3 和 4 的 缓存 都 是 可 以 使 用 的 ， 无 须 再 次 计算 。 但 是 Partition2 由 于 缓存 丢失 ， 需 要 
从 头 开始 计算 ，Spark 会 从 RDD0 的 Partition2 开 始 ， 重 新 开始 计算 。 


内 部 实现 上 ，DAG 被 Spark 划 分 为 不 同 的 Stage，Stage 之 间 的 依赖 关系 可 以 认为 就 是 Lineage。 关 于 DAG 的 划分 可 以 参阅 第 4 章 。 


提 到 Lineage 的 容错 机 制 ， 不 得 不 提 Tachyon。Tachyon 包 含 两 个 维度 的 容错 ， 一 个 是 Tachyon 集 群 的 元 数据 的 容错 ， 它 采用 了 类 似 于 HDFS 的 Name Node 的 元 数据 容 
错 机 制 ， 即 将 元 数据 保存 到 一 个 Image 文 件 ， 并 且 保 存 了 元 数据 变化 的 编辑 日 志 (EditLog) 。 另 外 一 个 是 Tachyon 保 存 的 数据 的 容错 机 制 ， 这 个 机 制 类 似 于 RDD 的 
Lineage，Tachyon 会 保留 生成 文件 数据 的 Lineage， 在 数据 丢失 时 会 通过 这 个 Lineage 来 恢复 数据 。 如 果 是 Spark 的 数据 ， 那 么 在 数据 丢失 时 Tachyon 会 启动 Spark 的 Job 来 
重 算 这 部 分 内 容 。 如 果 是 Hadoop 产 生 的 数据 ， 那 么 重新 启动 相应 的 Map Reduce Job 就 可 以 。 现 在 Tachyon 的 容错 机 制 的 实现 还 处 于 开发 阶段 ， 并 不 推荐 将 这 个 机 制 应 用 
于 生产 环境 。 不 过 ， 这 并 不 影响 Spark 使 用 Tachyon。 如 果 Spark 保 存 到 Tachyon 的 部 分 数据 丢失 ， 那 么 Spark 会 根据 自 有 的 容错 机 制 来 重 算 这 部 分 数据 。 
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图 例 : 没有 缓存 的 RDD 
缓存 过 的 RDD 
| Partition | 缓存 丢失 的 RDD 

图 3-11 RDD 的 部 分 缓存 丢失 的 逻辑 图 
35. JA 
RDD 是 Spark 最 基本 ， 也 是 最 根本 的 数据 抽象 。RDD 是 只 读 的 、 分 区 记录 的 集合 。RDD 只 能 基于 在 稳定 物理 存储 中 的 数据 集 和 其 他 已 有 的 RDD 上 执行 确定 性 操作 来 创 


建 。 这 些 确定 性 操作 称 为 转换 ， 如 map、filter、groupBy、join。RDD 支 持 丰富 的 转换 操作 ， 极 大 地 简化 了 用 户 应 用 的 编写 。 


RDD 不 需要 物化 。RDD 含 有 如 何 从 其 他 RDD 衍 生 (ВПР) 出 本 RDD 的 相关 信息 ( 即 Lineage) ， 据 此 在 RDD 部 分 分 区 数据 丢失 时 可 以 通过 物理 存储 的 数据 计算 出 相 
应 的 RDD 分 区 。 


第 4 章 Scheduler 模 块 详解 


Scheduler (任务 调度 ) 模块 作为 Spark Core 的 核心 模块 之 一 ， 充 分 地 体现 了 与 MapReduce 完 全 不 同 的 设计 思想 。Spark 对 于 DAG (Directed Acyclic Graph， 有 向 
无 环 图 ) 的 实现 及 不 同 执行 阶段 的 划分 和 任务 的 提交 执行 ， 充 分 体现 了 其 设计 的 优雅 和 高 效 。 本 章 主要 介绍 任务 调度 ， 即 组 成 应 用 的 多 个 Job 之 间 如 何 分 配 计算 资源 。 


41 模块 概述 


4.1.1 整体 架构 


任务 调度 模块 主要 包含 两 大 部 分 ， 即 DAGScheduler 和 TaskScheduler， 它 们 负责 将 用 户 提交 的 计算 任务 按照 DAG 划 分 为 不 同 的 阶段 并 且 将 不 同 阶段 的 计算 任务 提交 到 
集群 进行 最 终 的 计算 。 整 个 过 程 可 以 使 用 图 4-1 表 示 。 


RDD Objects 可 以 理解 为 用 户 实际 代码 中 创建 的 IDD， 这 些 代码 逻辑 上 组 成 了 一 个 DAG， 支 持 复杂 拓扑 。Spark 的 易 用 性 就 体现 在 这 部 分 ， 它 提供 了 基于 RDD 的 多 种 转 
换 和 动作 ， 使 Spark 的 用 户 可 以 在 基本 不 增加 用 户 学 习 成 本 的 前 提 下 使 用 比较 复杂 的 拓扑 来 实现 策略 。 用 户 实际 编程 的 时 候 可 以 认为 它 处 理 的 数据 都 可 以 存 到 内 存 中 ， 而 无 
须 关 心 最 终 在 集群 中 运行 的 任务 是 否 整个 数据 可 以 装载 到 内 存 中 或 者 说 究竟 需要 多 少 节点 参与 运算 (如 果 对 运算 速度 或 者 性 能 有 要 求 ， 需 要 设置 一 些 合适 的 参数 ， 请 具体 参 
阅 第 6.7.8 章 的 性 能 调 优 部 分 ) 。 
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图 4-1 任务 调度 逻辑 视图 


DAGScheduler 主 要 负责 分 析 用 户 提 交 的 应 用 ， 并 根据 计算 任务 的 依赖 关系 建立 DAG， 然 后 将 DAG 划 分 为 不 同 的 Stage (阶段 ) ， 其 中 每 个 Stage 由 可 以 并 发 执行 的 一 
组 Task 构 成 ， 这 些 Task 的 执行 逻辑 完全 相同 ， 只 是 作用 于 不 同 的 数据 。 而 且 DAG 在 不 同 的 资源 管理 框架 ( 即 部 署 方式 ， 包 括 Standalone、Mesos、YARN、Local、EC2 
等 ) 下 的 实现 是 相同 的 。 


在 DAGScheduler 将 这 组 Task 划 分 完成 后 ， 会 将 这 组 Task 提 交 到 TaskScheduler。TaskScheduler 通 过 Cluster Manager 在 集群 中 的 某 个 Worker 的 Executor 上 启动 任 
务 。 在 Executor 中 运行 的 任务 ， 如 果 缓 存 中 没有 计算 结果 ， 那 么 就 需要 开始 计算 ， 同 时 ， 计 算 的 结果 会 回 传 到 Driver 或 者 保存 在 本 地 。 在 不 同 的 资源 管理 框架 
下 ，TaskScheduler 的 实现 方式 是 有 差别 的 ， 但 是 最 重要 的 实现 是 org.apache.spark.schedulerTaskSchedulerlImpl。 对 于 Local、Standalone 和 Mesos 来 说 ， 它 们 的 
TaskScheduler 就 是 TaskSchedulerlImpl; 对 于 YARN Cluster 和 YARN Client 的 TaskScheduler 的 实现 也 是 继承 自 TaskSchedulerlmpl。 


4.2 DAGScheduler 实 现 详 解 


前 面 提 到 过 ，DAGScheduler 主 要 负责 将 用 户 的 应 用 的 DAG 划 分 为 不 同 的 stage (阶段 ) ， 其 中 每 个 Stage 由 可 以 并 发 执行 的 一 组 Task 构 成 ， 这 些 Task 的 执行 逻辑 完全 
相同 ， 只 是 作用 于 不 同 的 数据 。 而 且 DAG 在 不 同 的 资源 管理 框架 ( 即 部 署 方式 ， 包 括 Standalone，Mesos，YARN，Local，EC2 等 ) 下 的 实现 是 相同 的 。 


以 RDD 的 Action count 为 例 ， 解 释 一 下 Spark 的 内 部 实现 原理 。 首 先 ，RDD 的 count 实 际 上 是 调用 SparkContext 的 org.apache.spark.sparkContext#runJob 来 进行 提 


交 Job 的 : 


def count(): Long = sc.runJob(this, Utils.getIteratorSize 


 ).sum 


SparkContext 实 现 了 很 多 runJob， 这 些 


函数 的 区 别 就 是 调用 参数 的 不 同 ， 不 过 这 些 runJob 最 后 都 会 调用 DAGScheduler 的 runJob 


的 生成 来 详细 讲解 这 个 过 程 。 


dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, allowLocal, resultHandler, localProperties.get) 


而 DAGScheduler 的 runJob 会 开始 对 用 户 提交 的 Job 进 行 处 理 ， 包 括 Stage 的 划分 、Task 的 生成 等 。 接 下 来 ,将 从 DAGScheduler 的 创建 ， 用 户 提交 Job 的 处 理 ， 到 结果 


43 ”任务 调度 实现 详解 


TaskScheduler 为 Task 最 终 分 配 计算 资源 。 


每 个 TaskScheduler 都 对 应 一 个 SchedulerBackend。 其 中 ，TaskSscheduler 负 责 Application 的 不 同 Job 之 间 的 调度 ， 在 Task 执 行 失败 时 启动 重 试 机 制 ， 并 且 为 执行 速 
度 慢 的 Task 启 动 备份 的 任务 。 而 SchedulerBackend 负 责 与 Cluster Manager 交 互 ， 取 得 该 Application 分 配 到 的 资源 ， 并 且 将 这 些 资源 传 给 TaskScheduler， 由 


44 Word Count 调 度 计算 过 程 详解 


在 3.3.3 节 中 提 到 了 “Word Count” 中 RDD 转 换 的 逻辑 视图 ， 但 是 由 于 当时 没有 提 到 Stage 划 分 和 任务 调度 ， 


涉及 。 而 前 面 几 个 小 节 将 用 户 提交 的 stage 的 划分 ， 任 务 的 顺序 提交 和 在 Executor 端 的 执行 ， 最 终 计算 结果 的 处 理 和 任务 执 
现 原理 。 


а= 


ATF P 
对 于 前 面 提 到 的 “Word Count” 


因此 对 这 个 逻辑 视图 是 如 何 分 阶段 转化 为 不 同 的 任务 没 
时 的 容错 机 制 都 做 了 详细 解析 。 因 此 ， 图 
4-9 中 在 图 3-7 的 基础 上 ， 增 加 了 RDD 是 如 何 通过 依赖 关系 查找 所 依赖 的 Parent RDD 的 Partition 的 ,读者 可 以 对 照 图 4-9 和 4.2.3.3 节 的 详解 ， 以 便 理解 这 个 逻辑 图 背后 的 实 


(图 3-8) ， 会 生成 两 类 Task， 一 个 是 Shuffle 之 前 的 Task， 即 ShuffleMapTask， 由 于 初始 的 RDD 有 5 个 Paritition ， 
ShuffleMapTask 生 成 ， 如 图 4-10 所 示 ; Shuffle 之 后 的 Task 是 需要 输出 结果 的 Task， 
ResultTask， 如 图 4-11 所 示 。 


因此 会 有 5 个 
因此 它 是 ResultTask， 由 于 设 定 了 Shuffle 的 输出 分 片 数量 是 3 个 


个 ， 因 此 这 里 会 生成 3 个 
生成 的 Task 会 被 发 送 到 已 经 启动 的 Executor 上 ， 由 Executor 来 完成 计算 任务 的 执行 ， 执 行 过 程 的 实现 在 org.apache.spark.executor.Executor.TaskRunner#run。 后 
面 在 第 6 章 中 会 介绍 这 一 部 分 的 实现 原理 和 设计 思想 。 
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94-11 "Word Count” 中 的 ResultTask 的 逻辑 运行 图 


但 是 ，Spark 对 于 这 个 过 程 的 实现 却 不 像 看 上 去 那么 简单 ， 它 要 解决 以 下 问题 : 
Т) 如 何 将 用 户 逻 辑 转换 成 可 以 并 发 执行 的 任务 ? 

2) 如 何 定义 和 实现 Shuffle? 

3) 如 何 传递 数据 ， 如 何 将 数据 传递 到 正确 的 任务 上 ? 


4) 如 何 尽 量 避 免 数 据 在 集群 上 的 移动 〈 即 数据 本 地 性 ，Data Locality) ， 任 务 最 好 在 数据 所 在 的 节点 上 执行 ? 


5) 如 何 为 用 户 分 配 计 算 资源 ? 


对 于 第 一 个 问题 ， 本 章 已 经 给 出 了 答案 ;对 于 第 二 个 和 第 三 个 问题 ， 由 第 7 章 回答 ) 对 于 第 四 个 问题 ， 是 在 任务 调度 的 时 候 实现 的 ; 最 后 一 个 问题 ， 为 用 户 分 配 计 算 资 
源 ， 对 于 Standalone 的 方式 来 说 ， 实 际 上 在 创建 SparkContext 的 时 候 ，Master 就 会 开始 为 用 户 提交 的 计算 分 配 计算 资源 。 在 DAGScheduler 将 计算 任务 划分 完成 
后 ，TaskScheduler 就 会 在 已 经 分 配 好 的 计算 资源 上 启动 计算 任务 。 


45 Е 


要 理解 什么 是 Stage， 首 先 要 搞 明 白 什 么 是 Task。Task 是 在 集群 上 运行 的 基本 单位 。 一 个 Task 负 责 处 理 RDD 的 一 个 Partition。RDD 的 多 个 Patition 会 分 别 由 不 同 的 
Task 去 处 理 。 当 然 ， 这 些 Task 的 处 理 逻 辑 是 完全 一 致 的 。 这 一 组 Task 就 组 成 了 一 个 stage。 有 两 种 Task: 


1) org.apache.spark.scheduler.ShuffleMapTask 
2) org.apache.spark.scheduler.ResultTask 


ShuffleMapTask 根 据 Task 的 partitioner 将 计算 结果 放 到 不 同 的 bucket 中 。 而 ResultTask 将 计算 结果 发 送 回 Driver Application。 一 个 Job 包 含 了 多 个 stage， 而 stage 
是 由 一 组 完全 相同 的 Task 组 成 的 。 最 后 的 Stage 包 含 了 一 组 ResultTask。 


在 用 户 触发 了 一 个 动作 后 ， 比 如 count、collect，SparkContext 会 通过 runJob 的 函数 开始 进行 任务 提交 。 最 后 会 通过 DAG 的 事件 处 理 器 传递 到 DAGScheduler 本 身 的 
handlejobsubmitted， 它 首先 会 划分 Stage， 提 交 Stage， 然 后 提交 Task。 至 此 ，Task 就 开始 在 集群 上 运行 了 。 


一 个 stage 的 开始 就 是 从 外 部 存储 或 者 shuffle 结 果 中 读 取 数据 ; 一 个 stage 的 结束 就 是 由 于 发 生 shuffle 或 者 生成 结果 时 。 


在 DAGScheduler 将 用 户 提 交 的 应 用 划分 为 不 同 的 Stage 后 ，TaskScheduler 模 块 负责 为 Stage 的 Task 分 配 计算 资源 ， 这 个 计算 资源 的 分 配 实际 上 是 Cluster Manager 职 
责 。 接 下 来 的 章节 将 以 Standalone 模 式 为 例 ， 分 析 Spark 是 如 何 为 应 用 分 配 计算 的 。 


第 5 章 ”Deploy 模 块 详解 


Spark 的 Cluster Manager 有 以 下 几 种 部 署 模式 : Standalone, Mesos, YARN, EC2, Local, 


Spark 的 Cluster Manager 最 开始 的 时 候 仅 支 持 Mesos， 后 来 为 了 方便 Hadoop 的 用 户 加 入 了 对 YARN 的 支持 ， 即 使 用 YARN 作 为 资源 的 管理 器 和 应 用 内 的 任务 调度 器 。 
而 Standalone 模 式 的 出 现 ， 更 好 地 扩展 了 Spark 的 应 用 场景 。 本 章 将 着 重 讲解 Standalone 部 署 方 式 的 详细 实现 ， 即 Deploy 模 块 的 详细 实现 。 


5.1 _ Spark 运行 模式 概述 


在 4.3.1 节 介绍 TaskSscheduler 的 创建 时 ， 提 到 过 不 同 的 运行 模式 实际 上 实现 了 不 同 的 SchedulerBackend 和 TaskSscheduler: 
1) org.apache.spark.scheduler.SchedulerBackend 


2) org.apache.spark.scheduler.TaskScheduler 


在 SparkContext 的 创建 过 程 中 ， 会 通过 传 入 的 Master URL 的 值 来 确定 不 同 的 运行 模式 ， 并 且 创 建 不 同 的 SchedulerBackend 和 TaskScheduler， 这 个 创建 过 程 的 实现 
f£org.apache.spark.SparkContext£createTaskScheduler, 


5.2 ”模块 整体 架构 


Deploy 模 块 采 用 的 也 是 典型 的 Master/Slave 架 构 ， 其 中 Master 负 责 整个 集群 的 资源 调度 和 Application 的 管理 。Slave ( 即 Worker) 接收 Master 的 资源 分 配 调度 命令 
后 启动 Executor， 由 Executor 完 成 最 终 的 计算 任务 。 而 Client 则 负责 Application 的 创建 和 向 Master 注 册 Application， 并 且 负 责 接 收 来 自 Executor 的 状态 更 新 和 计算 结果 
等 。 其 整体 架构 如 图 5-9 所 示 。 


org.apache.spark.SparkContext 
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5-9 ”Standalone 模 式 的 整体 架构 


Deploy 模 块 主要 包含 3 个 子 模块 : Master、Worker、Client， 它 们 之 间 的 通信 通过 AKKA 完 成 。 对 于 Master 和 Worker， 它 们 本 身 就 是 一 个 Actor， 因 此 可 以 直接 通过 
AKKA 实 现 通 信 。Client 虽 然 本 身 不 是 一 个 Actor， 这 三 者 的 主要 职责 如 下 : 


1) Master: 接收 Worker 的 注册 并 管理 所 有 的 Worker， 接 收 Client 提 交 的 Application，FIFO 调 度 等 待 的 Application 并 向 Worker 提 交 。 


2) Worker: 向 Master 注 册 自 己 ， 根 据 Master 发 送 的 Application 配 置 进程 环境 ， 并 启动 StandaloneExecutorBackend。 


3) Client: 向 Master 注 册 并 监控 Application。 当 用 户 创建 SparkContext 时 会 实例 化 SparkDeploySchedulerBackend， 而 实例 化 SparkDeploySchedulerBackend 的 
同时 会 启动 Client， 通 过 向 Client 传 递 启 动 参数 和 Application 有 关 信 息 ，Client 向 Master 发 送 请 求 注册 Application 并 且 在 计算 节点 上 启动 StandaloneExecutorBackend。 


53 ”消息 传递 机 制 详解 


Deploy 模 块 之 间 主 要 通过 AKKA 通 信 ， 因 此 ， 通 过 对 各 个 子 模块 之 间 消 息 通信 协议 的 梳理 ， 可 以 分 析 每 个 子 模块 的 功能 职责 。 


5.4 ”集群 的 启动 


在 Spark 集 群 部 署 完成 后 ， 启 动 整个 集群 时 会 发 生 什 么 ”本 节 就 Master 的 启动 和 Worker 的 启动 来 分 析 架 构 实现 和 设计 思想 。 


5.5 “集群 容错 处 理 


容错 (fault tolerance) 指 的 是 在 一 个 系统 的 部 分 模块 出 现 错误 的 情况 下 还 能 持续 地 对 外 提供 服务 ;如果 出 现 了 服务 质量 的 下 降 ， 这 个 下 降 也 是 和 出 错 的 严重 性 成 正比 
的 。 对 于 没有 容错 的 系统 ， 即 使 一 个 微小 的 错误 也 可 能 会 导致 整个 服务 停止 。 


对 于 一 个 集群 来 说， 机 器 故障 、 网 络 故障 等 都 被 视 为 常态 ， 尤 其 是 当 集 群 达到 一 定 规模 后 ， 可 能 每 天 都 会 有 物理 故障 导致 某 台 机 器 不 能 提供 服务 。 因 此 对 于 分 布 式 系统 
来 说 ， 应 对 这 种 场景 的 容错 也 是 设计 目标 之 一 。 接 下 来 将 从 Master、Weorker 和 Executor 的 异常 退出 出 发 ， 讨 论 Spark 是 如 何 处 理 的 。 


提 到 容错 ， 不 得 不 提 一 下 容 灾 (或 者 称 为 灾难 恢复 ，disaster recovery) 。 容 灾 技 术 是 通过 在 异地 建立 和 维护 一 个 备份 系统 ， 利 用 地 理 上 的 分 散 性 来 保证 数据 对 于 灾难 
性 事件 的 抵抗 能 力 。 容 灾 系 统 在 实现 中 可 以 分 为 两 个 层次 : 数据 容 灾 和 应 用 容 灾 。 数 据 容 灾 指 建 立 一 个 异地 的 数据 系统 ， 作 为 本 地 关键 应 用 数据 的 一 个 备份 。 应 用 容 严 是 在 
数据 容 灾 的 基础 上 ， 在 异地 建立 一 套 完整 的 和 本 地 生产 系统 相同 的 备份 应 用 系统 (可 以 是 互 为 备份 ) 。 在 灾难 情况 下 ， 由 远程 系统 迅速 接管 业务 运行 。 


容错 和 容 灾 都 是 为 了 实现 系统 的 高 可 用 性 ， 容 错 是 在 系统 的 部 分 模块 出 现 问 题 时 的 错误 恢复 机 制 ， 容 灾 则 是 在 整个 系统 的 层面 ， 通 过 使 用 数据 和 应 用 的 镜像 ， 来 实现 服 
务 的 高 可 用 性 的 。 
5.6 Master HA 实现 详解 


Standalone 是 一 个 采用 Master/Slave 的 典型 架构 ， 所 以 Master 会 出 现 单 点 故障 (Single Point of Failure, SPOF) 问题 。 在 前 面 介 绍 Master 的 启动 时 ， 已 经 介绍 过 
Spark 可 以 选用 ZooKeeper 来 实现 高 可 用 性 (High Availability, HA) 。 本 节 将 详细 讲解 这 个 过 程 的 实现 。 


众所周知 ，ZooKeeper 提 供 了 一 个 Leader 选 举 机 制 ， 利 用 这 个 机 制 可 以 保证 虽然 集群 存在 多 个 Master 但 是 只 有 一 个 是 Active 的 。 当 Active 的 Master 出 现 故 障 时 ， 另 外 
的 一 个 Standby Master 会 被 选举 出 来 。 由 于 集群 的 信息 ， 包 括 Worker、Driver Client 和 Application 的 信息 都 已 经 持久 化 到 ZooKeeper 中 ， 因 此 在 切换 的 过 程 中 只 会 影响 
新 Job 的 提交 ， 对 于 正在 进行 的 Job 没 有 任何 的 影响 。 加 入 ZooKeeper 的 集群 整体 架构 如 图 5-14 所 示 。 
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图 5-14 ”基于 ZooKeeper 的 整体 架构 图 


57 小结 
通过 对 Deploy 模 块 的 分 析 来 看 ， 该 模块 相对 来 说 比较 简单 ， 也 没有 特别 复杂 的 逻辑 结构 。Standalone 并 不 是 为 了 替代 更 谈 不 上 完善 Mesos/YARN， 正 如 前 面 所 说 
的 ，Deploy 模 块 是 为 了 降低 使 用 门槛 ， 使 更 多 的 用 户 能 够 使 用 Spark 而 实现 的 一 种 方案 。 


当然 现 阶段 看 来 还 略 显 简陋 ， 比 如 Application 的 调度 方式 (FIFO) 是 否 会 造成 小 应 用 长 时 间 等 待 大 应 用 的 结束 ， 是 否 有 更 好 的 调度 策略 ; 资源 的 衡量 标准 是 否 可 以 更 
多 、 更 合理 ， 而 不 单单 是 CPU 数量 ， 因 为 现实 场景 中 有 的 应 用 是 本 地 IO 密集 型 ， 有 的 是 网 络 IO 密集 型 ， 这 样 就 算 CPU 资 源 有 富余 ， 调 度 新 的 Application 也 不 一 定 会 很 有 意 


总 的 来 说 作为 一 种 简单 蔡 代 方式 ，Deploy 模 块 对 于 推广 Spark 还 是 有 积极 意义 的 。 


在 为 Application 分 配 了 计算 资源 后 ，sScheduler 模 块 的 Taskscheduler 会 根据 不 同 的 调度 策略 为 Task 分 配 Application 得 到 计算 资源 Executor， 并 且 将 Task 发 送 到 
Executor。 接 下 来 的 章节 会 分 析 Executor 的 详细 实现 。 


第 6 章 “Executor 模 块 详 解 


Executor 模 块 负责 运行 Task 计 算 任 务 ， 并 将 计算 结果 回 传 到 Driver。Spark 支 持 多 种 资源 调度 框架 ， 这 些 资 源 框架 在 为 计算 任务 分 配 资源 后 ， 最 后 都 会 使 用 Executor 模 
块 完 成 最 终 的 计算 。 

图 6-1 是 计算 的 一 个 顶层 逻辑 关系 图 。 每 个 Spark 的 Application 都 是 从 spark-Context 开 始 的 ， 它 通过 Cluster Manager 和 Worker 上 的 Executor 建 立 联 系 ， 由 每 个 
Executor 完 成 Application 的 部 分 计算 任务 。 不 同 的 Cluster Master， 即 资源 调度 框架 的 实现 模式 会 有 区 别 ， 但 是 任务 的 划分 和 调度 都 是 由 运行 SparkContext 端 的 Driver 完 
成 的 ， 资 源 调度 框架 在 为 Application 分 配 资源 后 ， 将 Task 分 配 到 计算 的 物理 单元 Executor 去 处 理 。 本 章 将 着 重 讲解 Executor 模 块 的 实现 。 


Worker 
Executor Cache 
Application A 
Task Task 

val sc-new SparkContext Fi у s -- ' 
val rdd-sc.textFile("...") €—» Cluster Manager - | 
rdd.map().filter()... | 

Worker D 


Executor Cache 


Task Task 


图 6-1 计算 的 顶层 逻辑 关系 


6.1 Standalone 模 式 的 Executor 分 本 详解 


在 Standalone 模 式 下 集群 启动 时 ，Worker 会 向 Master 注 册 ， 使 得 Master 可 以 感知 进而 管理 整个 集群 ， Master 通 过 借助 Zookeeper， 可 以 简单 实现 高 可 用 性 ; 而 应 用 
方 通过 SparkContext 这 个 与 集群 的 交互 接口 ， 在 创建 SparkContext 时 就 完成 了 Application 的 注册 ， 由 Master 为 其 分 配 Executor; 在 应 用 方 创建 了 RDD 并 且 在 这 个 RDD 上 
进行 了 很 多 的 转换 后 ， 触 发 Action， 通 过 DAGScheduler 将 DAG 划 分 为 不 同 的 stage， 并 将 Stage 转换 为 TaskSset 交 给 TaskschedulerlImpl; 再 由 TaskSschedulerlImpl 通 过 
SparkDeployschedulerBackend 的 reviveOffers， 最 终 向 ExecutorBackend 发 送 LaunchTask 的 消息 ; ExecutorBackend 接 收 到 消息 后 ， 启 动 Task， 开 始 在 集群 中 启动 计 
算 。 具 体 过 程 如 图 6-2 所 示 。 
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图 6-2 ”Standalone 模 式 下 Executot 的 分 配 序 列 图 


SparkContext 是 用 户 应 用 和 Spark 集 群 的 交换 的 主要 接口 ， 用 户 应 用 一 般 首先 要 创建 它 。 如 果 你 使 用 SparkShell， 你 不 必 显 式 地 创建 它 ， 系 统 会 自动 创建 一 个 名 为 sc 的 
SparkContext 的 实例 。 创 建 SparkContext 的 实例 ， 主 要 工作 是 设置 一 些 参 数 ， 比 如 Executor 使 用 到 的 内 存 的 大 小 。 如 果 系 统 的 配置 文件 已 经 设置 ， 那 么 就 直接 读 取 该 配 
置 ; 否则 读 取 环境 变量 。 如 果 都 没有 设置 ， 那 么 取 默 认 值 为 512M。 当 然 ， 这 个 数值 还 是 很 保守 的 ， 特 别 是 在 内 存 已 经 不 是 那么 昂贵 的 今天 。 除 了 加 载 这 些 集群 的 参数 ， 它 
完成 了 TaskScheduler 和 DAGScheduler 的 创建 。 关 于 TaskScheduler 和 DAGScheduler 可 以 参阅 4.3 节 。 


6.2 Task 的 执行 


org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend.DriverActor#launchTasks 会 将 分 配 到 Executor 的 Task 进 行 分 配 : 


val executorData = executorDataMap (task.executorId) 
executorData.freeCores -= scheduler.CPUS PER TASK 
executorData.executorActor ! LaunchTask (new SerializableBuffer (serializedTask) 


org.apache.spark.executor.CoarseGrainedExecutorBackend 收 到 LaunchTask 的 消息 后 ， 会 调用 Executor 的 launchTask 启 动 Task: 


case LaunchTask (data) => 

if (executor == null) { 
logError ("Received LaunchTask command but executor was null") 
System.exit (1) 

) else ( 
val ser = env.closureSerializer.newInstance|() 
val taskDesc - ser.deserialize[TaskDescription] (data.value) 
logInfo("Got assigned task " + taskDesc.taskId) 
executor.launchTask(this, taskDesc.taskId, taskDesc.name, taskDesc. 

serializedTask) 


Executor 会 为 这 个 Task 生 成 一 个 TaskRunner (继承 自 Runnable) ; TaskRunner 的 run 中 会 执行 Task。TaskRunner 最 终 会 被 放 到 一 个 ThreadPool 中 去 执行 。 


val tr = new TaskRunner(context, taskId, taskName, serializedTask) 
runningTasks.put(taskId, tr) 
threadPool.execute (tr) 


接 下 来 将 介绍 org.apache.spark.executor.Executor.TaskRunner#run 的 实现 。 


63 ”参数 设置 


6.3.1 spark.executormemory 


它 配 置 了 Executor 可 以 最 多 使 用 的 内 存 大 小 ， 是 通过 设置 Executor 的 JVM 的 Heap 尺 寸 来 实现 的 。 由 于 一 个 集群 的 内 存 资 源 总 归 是 有 限 的 ， 而 且 这 些 内 存 会 被 很 多 的 应 
用 共享 ， 因 此 ， 设 置 一 个 合理 的 内 存 值 是 非常 必要 的 。 如 果 设 置 的 过 大 ， 那 么 可 能 会 导致 部 分 任务 由 于 分 配 不 到 资源 而 等 待 ， 延 长 整个 应 用 的 执行 时 间 ; 如 果 设 置 过 小 ， 那 
么 就 会 产生 频繁 的 垃圾 回收 和 读 写 外 部 磁盘 ， 同 样 影响 性 能 。 


Executor 的 内 存 是 被 其 内 部 所 有 的 任务 共享 ， 而 每 个 Executor 上 可 以 支持 的 任务 的 数量 取决 于 Executor 所 持 有 的 CPU Core 的 数量 。 因 此 为 了 评估 一 个 Executor 占 用 多 
少 内 存 是 合适 的 ， 需 要 了 解 每 个 任务 的 数据 规模 的 大 小 和 计算 过 程 中 所 需要 的 临时 内 存 空 间 的 大 小 。 实 际 上 ， 要 比较 精确 地 计算 出 一 个 任务 所 需要 的 内 存 空间 还 是 非常 困难 
的 ， 首 先 ， 因 为 数据 本 身 加 载 到 内 存 中 ， 由 于 有 管理 这 些 内 存 的 额外 内 存 开销 ， 可 能 需要 的 真实 内 存 是 数据 大 小 的 数 倍 ; 其 次 ， 任 务 计算 过 程 中 所 需要 的 临时 内 存 空 间 的 大 
小 会 因为 算法 的 不 同 而 不 同 ， 这 是 比较 难 评估 的 。 如 果 需 要 比较 准确 的 评估 数据 集 的 大 小 的 话 ， 可 以 将 RDD cache 在 内 存 中 ， 从 BlockManager 的 日 志 中 可 以 看 到 每 个 
Cache 分 区 的 大 小 (实际 上 ， 这 个 大 小 也 是 一 个 估计 值 ) 。 


如 果 内 存 比 较 紧张 ， 就 需要 合理 规划 每 个 分 区 任务 的 数据 规模 ， 例 如 采用 更 多 的 分 多， 用 增加 任务 数量 (进而 需要 更 多 的 批 次 来 运算 所 有 的 任务 ) 的 方式 来 减 小 每 个 任 
务 所 需 处 理 的 数据 大 小 。 


6.4 小 结 


Executor 模 块 负责 运行 Task 计 算 任务 ， 并 将 计算 结果 回 传 到 Driver。Spark 支 持 多 种 资源 调度 框架 ， 这 些 资源 框架 在 为 计算 任务 分 配 了 资源 后 ， 最 后 都 会 使 用 Executor 
模块 完成 最 终 的 计算 。 


本 章 以 Standalone 模 式 为 例 ， 解 析 用 户 提 交 的 应 用 是 如 何 分 配 到 Executor 资 源 的 ， 接 着 详细 介绍 了 Task 在 Executor 执 行 的 实现 细节 。 


第 7 章 ”Shuffle 模块 详解 


Shuffle， 无 疑 是 性 能 调 优 的 一 个 重点 ， 本 章 将 从 源码 实现 的 角度 ， 深 入 解析 Spark Shuffle 的 实现 细节 ; 并 且 根 据 Shuffle 实 现 迭 代 的 历史 ， 了 解 Spark 的 Shuffle 如 何 
解决 遇 到 的 问题 ， 这 个 对 于 互联 网 工程 实践 也 具有 很 重要 的 指导 意义 : 一 个 可 用 、 可 上 线 与 完美 的 方案 是 有 区 别 的 ， 与 其 自己 在 线 下 不 断 “ 优 化 ” ， 不 如 将 一 个 能 够 满足 当 
前 需要 的 实现 先 上 线 ， 并 且 根 据 需 求 或 者 应 用 场景 的 变化 不 断 进 行 和 迭代、 改进。 这样， 一 个 系统 或 者 功能 就 会 慢 慢 地 发 展 起 来 。 


Shuffle， 翻 译 成 中 文 就 是 洗 牌 。 之 所 以 需要 Shuffle， 还 是 因为 具有 某 种 共同 特征 的 一 类 数据 需要 最 终 汇聚 (aggregate) 到 一 个 计算 节点 上 进行 计算 。 这 些 数 据 分 布 
在 各 个 存储 节点 上 并 且 由 不 同 节点 的 计算 单元 处 理 。 以 最 简单 的 Word Count 为 例 ， 其 中 数据 保存 在 Node1、Node2 和 Node3; 经 过 处 理 后 ， 这 些 数据 最 终 会 汇聚 到 
Nodea、Nodeb 处 理 ， 如 图 7-1 所 示 。 


这 个 数据 重新 打 乱 然后 汇聚 到 不 同 节点 的 过 程 就 是 Shuffle。 但 是 实际 上 ，Shuffle 过 程 可 能 会 非常 复杂 : 


1) 数据 量 会 很 大 ， 比 如 单位 为 TB 或 PB 的 数据 分 散 到 几 百 甚至 数 干 、 数 万 台 机 器 上 。 


2) 为 了 将 这 个 数据 汇聚 到 正确 的 节点 ， 需 要 将 这 些 数据 放 入 正确 的 Partition， 因 为 数据 大 小 已 经 大 于 节点 的 内 存 ， 因 此 这 个 过 程 中 可 能 会 发 生 多 次 硬盘 续 写 。 


А 2 
В 1 


Моде а 


C 3 
D2 Node b 
Е 1 


Node 3 


图 7-1 Word Count 的 Shuffle 示 意图 


3) 为 了 节省 带宽 ， 这 个 数据 可 能 需要 压缩 ， 如 何在 压缩 率 和 压缩 解压 时 间 中 间 做 一 个 比较 好 的 选择 ? 


4) 数据 需要 通过 网 络 传输 ， 因 此 数据 的 序列 化 和 发 序列 化 也 变 得 相对 复杂 。 


一 般 来 说 ， 每 个 Task 处 理 的 数据 可 以 完全 载 入 内 存 (如 果 不 能 ， 可 以 减 小 每 个 Partition 的 大 小 ) ， 因 此 Task 可 以 做 到 在 内 存 中 计算 。 除 非 非 常 复杂 的 计算 逻辑 ， 否 则 
为 了 容错 而 持久 化 中 间 的 数据 是 没有 太 大 收益 的 ， 毕 竟 中 间 某 个 过 程 出 错 了 可 以 从 头 开始 计算 。 但 是 对 于 Shuffle 来 说 ， 如 果 不 持久 化 这 个 中 间 结 果 ， 一 旦 数据 丢失 ， 就 需 
要 重新 计算 依赖 的 全 部 RDD， 因 此 有 必要 持久 化 这 个 中 间 结 果 。 


接 下 来 会 深入 分 析 每 个 Shuffle Map Task 结 束 时 ， 数 据 是 如 何 持久 化 〈 即 Shuffle Write) 以 使 得 下 游 的 Task 可 以 获取 到 其 需要 处 理 的 数据 的 〈 即 Shuffle Read) 。 最 
后 展望 Shuffle 接 下 来 可 能 会 有 的 改进 。 需 要 注意 的 是 在 Spark 0.8 以 后 ，Shuffle Write 会 将 数据 持久 化 到 硬盘 ， 虽 然 之 后 Shuffle Write 不 断 进行 演进 优化 ， 但 是 数据 落地 
到 本 地 文件 系统 的 实现 并 没有 改变 。 


7.1 Hash Based Shuffle Write 


在 Spark 1.0 以 前 ，Spark 只 支持 Hash Based Shuffle。 因 为 在 很 多 运算 场景 中 并 不 需要 排序 ， 因 此 多 余 的 排序 只 能 使 性 能 变 差 ， 比 如 Hadoop 的 Map Reduce 就 是 这 么 
实现 的 ， 也 就 是 Reducer 拿 到 的 数据 都 是 已 经 排 好 序 的 。 实 际 上 Spark 的 实现 很 简单 : 每 个 Shuffle Map Task 根 据 key 的 哈 希 值 ， 计 算出 每 个 key 需 要 写 入 的 Partition 然 后 
将 数据 单独 写 入 一 个 文件 ， 这 个 Partition 实 际 上 就 对 应 了 下 游 的 一 个 Shuffle Мар Task 或 者 Result Task。 因 此 下 游 的 Task 在 计算 时 会 通过 网 络 (如 果 该 Task 与 上 游 的 
Shuffle Мар Task 运 行 在 同一 个 节点 上 ， 那 么 此 时 就 是 一 个 本 地 的 硬盘 读 写 ) 读 取 这 个 文件 并 进行 计算 。 


7.2 Shuffle Pluggable 框 染 


首先 介绍 一 下 需要 实现 的 接口 。 框 架 的 类 图 如 图 7-4 所 示 。 如 果 需 要 实现 新 的 Shuffle 机 制 ， 那 么 需要 实现 这 些 接口 。 


7.3 Sort Based Write 


在 Spark 1.2.0 中 ，Spark Core 的 一 个 重要 的 升级 就 是 将 默认 的 Hash Based Shuffle 换 成 了 Sort Based Shuffle， 即 spark.shuffle.manager 从 Hash 换 成 了 Sort， 对 应 
的 实现 类 分 别 是 org.apache.spark.shuffle.hash.HashshuffleManager 和 org.apache.spark.shuffle.sort.SortSshuffleManager。 


这 个 方式 的 选择 是 在 org.apache.spark.SparkEnv 完 成 的 : 


// Let the user specify short names for shuffle managers 
val shortShuffleMgrNames - Map( 
"hash" -> "org.apache.spark.shuffle.hash.HashShuffleManager", 
"sort" -> "org.apache.spark.shuffle.sort.SortShuffleManager") 
val shuffleMgrName = conf.get("spark.shuffle.manager", "sort") // 获 得 Shuffle //Manager 的 类 型 ， 上 默认 为 sort 
val shuffleMgrClass = shortShuffleMgrNames.getOrElse (shuffleMgrName. 
toLowerCase, shuffleMgrName) 
val shuffleManager = instantiateClass[ShuffleManager] (shuffleMgrClass) 


那么 Sort Based Shuffle “取代 ”Hash Based Shuffle 作 为 默认 选项 的 原因 是 什么 ? 


正如 前 面 提 到 的 ，Hash Based Shuffle 的 每 个 Mapper 都 需要 为 每 个 Reducer 写 一 个 文件 ， 供 Reducer 读 取 ， 即 需要 产生 M*R 个 数量 的 文件 ， 如 果 Mapper 和 Reducer 
的 数量 比较 大 ， 产 生 的 文件 数 会 非常 多 。Hash Based Shuffle 设 计 的 目标 之 一 就 是 避免 不 需要 的 排序 (Hadoop Мар Reduce 被 人 诉 病 的 地 方 ， 很 多 不 需要 sort 的 地 方 的 
Sort 导 致 了 不 必要 的 开销 ) 。 但 是 它 在 处 理 超大 规模 数据 集 的 时 候 ， 产 生 了 大 量 的 Disk IO 和 内 存 的 消耗 ， 这 无 疑 很 影响 性 能 。Hash Based Shuffle 也 在 不 断 的 优化 中 ， 正 
如 前 面 讲 到 的 Spark 0.8.1 引 入 的 File Consolidation 在 一 定 程度 上 解决 了 这 个 问题 。 为 了 更 好 地 解决 这 个 问题 ，Spark 1.1 引 入 了 Sort Based Shuffle。 首 先 ， 每 个 Shuffle 
Map Task 不 会 为 每 个 Reducer 生 成 一 个 单独 的 文件 ; 相反 ， 它 会 将 所 有 的 结果 写 到 一 个 文件 里 ， 同 时 会 生成 一 个 Index 文 件 ，Reducer 可 以 通过 这 个 Index 文 件 取得 它 需 
处 理 的 数据 。 避 免 产 生 大 量 文件 的 直接 收益 就 是 节省 了 内 存 的 使 用 和 顺序 Disk 10 带 来 的 低 延 时 。 节 省 内 存 的 使 用 可 以 减少 GC 的 风险 和 频率 。 而 减少 文件 的 数量 可 以 避免 同 
时 写 多 个 文件 给 系统 带 来 的 压力 。 


实现 详解 


Shuffle Map Task 会 按照 key 相 对 应 的 Partition ID 进 行 Sort， 其 中 属于 同一 个 Partition 的 key 不 会 Sort。 因 为 对 于 不 需要 Sort 的 操作 来 说 ， 这 个 Sort 是 负 收 益 的 ; 要 知 
道 之 前 Spark 刚 开始 使 用 Hash Based 的 Shuffle 而 不 是 Sort Based 就 是 为 了 避免 Hadoop Мар Reduce 对 于 所 有 计算 都 会 Sort 的 性 能 损耗 。 对 于 那些 需要 Sort 的 运算 ， 比 如 
sortByKey， 这 个 Sort 在 Spark 1.2.0 里 还 是 由 Reducer 完 成 的 。 整 个 过 程 如 图 7-5 所 示 。 
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图 7-5 Sort Based Shuffle 


如 果 这 个 过 程 内 存 不 够 用 了 ， 那 么 这 些 已 经 排序 的 内 容 会 被 写 入 到 外 部 存储 。 然 后 在 结束 的 时 候 将 这 些 不 同 的 文件 进行 归并 排序 。 


实现 了 这 种 新 的 寻 址 方式 。 
核心 实现 的 逻辑 都 在 类 org.apache.spark.shuffle.sort.SortShuffleWriter 和 它 依赖 的 类 中 。 下 面 简 要 分 析 它 的 实现 : 


1) 对 于 每 个 Partition， 创 建 一 个 scala.Array 存 储 它 所 包含 的 key/value 对 。 每 个 待 处 理 的 key/value 对 都 会 插入 相应 的 scala.Array。 


2) 如 果 scala.Array 的 大 小 超过 阔 值 ， 那 么 需要 将 这 个 内 存 的 数据 写 入 到 外 部 存储 。 这 个 文件 的 开始 部 分 会 记录 这 个 Partition 的 ID 及 这 个 文件 保存 了 多 少 个 数据 条 目 等 
信息 。 


3) 最 后 需要 将 所 有 写 入 到 外 部 存储 的 文件 进行 归并 排序 。 同 时 打开 的 文件 不 能 过 多 ， 过 多 会 消耗 大 量 的 内 存 ， 增 加 内 存 溢出 (Out of Memory, OOM) 或 者 垃圾 回 
收 的 风险 ; 也 不 能 过 少 ， 过 少 就 会 影响 性 能 ， 增 大 计算 的 延 时 。 一 般 推荐 每 次 同时 打开 10~ 100 个 文件 。 


Д) 在 生成 最 后 的 数据 文件 时 ， 需 要 同时 生成 Index 索 引文 件 。 正 如 前 面 提 到 的 ， 这 个 索引 文件 将 记录 不 同 Partition 的 起 始 位 置 。 


ШК 


然 ， 你 可 能 还 有 这 样 的 疑问 ，Hash Based Shuffle 说 白 了 就 是 根据 key 需 要 写 入 的 org.apache.spark.HashPartitioner， 为 每 个 Reducer 写 入 单独 的 Partition。 只 不 
过 对 于 同一 个 Core 启 动 的 Shuffle Map Task 来 说 ， 如 果 选 择 spark.shuffle.consolidateFiles， 第 二 个 Shuffle Map Task 会 把 结果 追加 到 上 一 个 文件 中 去 。 那 么 Sort 的 逻辑 
完全 可 以 整合 到 Hash Based Shuffle 中 去 ， 为 什么 又 要 重新 实现 一 种 Shuffle Writer 呢 ? 我 认为 有 以 下 几 点 原因 : 


1) Shuffle 机 制 是 所 有 类 似 计算 模块 的 核心 机 制 之 一 ， 要 进行 大 规模 的 优化 的 风险 非常 高 ; 比如 一 个 看 似 简单 的 Consolidation 机 制 在 Spark 0.8.1 就 引入 了 ， 但 是 
Spark 1.2.0 还 是 没有 将 其 作为 默认 选项 。 


2) Hash Based Shuffle 如 果 修 改 为 Sort 的 逻辑 ， 所 谓 的 改进 可 能 会 影响 原来 已 经 稳定 的 Spark 应 用 。 比 如 一 个 应 用 在 使 用 Hash Based Shuffle 时 性 能 是 完全 符合 预期 
的 ， 那 么 迁移 到 Spark 1.2.0 后 ， 只 需要 将 配置 文件 修改 一 下 就 可 以 完成 这 个 无 颖 的 迁移 。 


3) 作为 一 个 通用 的 计算 平台 ， 你 的 测试 永远 包含 不 了 所 有 的 场景 。 所 以 ， 还 是 留 给 用 户 去 选择 吧 。 
4) sort 机 制 还 处 于 不 断 完 善 的 阶段 。 因 此 ， 期 待 Sort 在 以 后 的 版 本 中 更 加 完善 吧 。 


接 下 来 从 org.apache.spark.shuffle.sort.SortShuffleManager 开 始 ， 介 绍 Sort based shuffle 的 具体 实现 。 回 忆 一 下 在 org.apache.spark.rdd.ShuffledRDD 的 计算 ， 
它 会 通过 SparkEnv 的 shuffleManger 取 得 Reader: 


SparkEnv.get.shuffleManager.getReader (dep.shuffleHandle, split.index, split. 
index + 1, context).read().asInstanceOf[Iterator[(K, C)]] 


如 果 是 Sort Based Shuffle 的 话 ， 那 么 这 个 Shuffle Manager 就 是 org.apache.spark.shuffle.sort.SortShuffleManager。 其 Reader 实 际 上 就 是 Hash Based Shuffle 的 


Reader。 


74 Shuffle Map Task 运 算 结 果 的 处 理 


Shuffle Map Task 运 算 结果 的 处 理 分 为 两 部 分 ， 一 个 是 在 Executor 端 直接 处 理 Task 结 果 的 ; 另 一 个 是 Driver 端 在 接 到 Task 运 行 结束 的 消息 时 对 Shuffle Write 的 结果 进 
行 处 理 ， 从 而 在 调度 下 游 的 Task 时 ， 使 其 可 以 得 到 需要 的 数据 。 


7.5 Shuffle Read 


回忆 一 下 ， 每 个 Stage 的 上 边界 ， 要 么 需要 从 外 部 存储 读 取 数 据 ， 要 么 需要 读 取 上 一 个 Stage 的 输出 ;而 下 边界 ， 要 么 是 需要 写 入 本 地 文件 系统 (需要 Shuffle) , LAGE 
child Stage 读 取 ， 要 么 是 最 后 一 个 Stage， 需 要 输出 结果 。 这 里 的 Stage， 在 运行 时 就 是 可 以 以 流水 线 的 方式 运行 的 一 组 Task， 除 了 最 后 一 个 Stage 对 应 的 是 ResultTask， 
其 余 的 Stage 对 应 的 都 是 Shuffle Map Task。 

而 除了 需要 从 外 部 存储 读 取 数 据 和 RDD 已 经 做 过 cache 或 者 checkpoint 的 Task， 一 般 Task 都 是 从 ShuffledRDD 的 Shuffle Read 开 始 的 。 本 节 将 详细 讲解 Shuffle Read 
的 过 程 。 


7.6 ЕВЕ, 


通过 上 面 的 架构 和 源码 实现 的 分 析 ， 不 难得 出 Shuffle 是 Spark Core 比 较 复杂 的 模块 的 结论 。 它 也 是 非常 影响 性 能 的 操作 之 一 。 因 此 ， 在 这 里 整理 了 会 影响 Shuffle 性 能 
的 各 项 配置 。 尽 管 在 前 文 已 经 解释 过 它 大 部 分 配置 项 的 含义 ， 但 是 由 于 这 些 参数 的 确 非常 重要 ， 这 里 算是 做 一 个 详细 的 总 结 。 


74 sem 


在 Spark 0.6 和 0.7 时 ，Shuffle 的 结果 都 需要 先 存储 到 内 存 中 (有 可 能 要 写 入 磁盘 ) ， 因 此 在 大 数据 量 的 情况 下 ， 发 生 GC 和 OOM 的 概率 非常 大 。 因 此 在 Spark 0.8 的 时 
候 ，Shuffle 的 每 个 结果 都 会 直接 写 入 磁盘 ， 并 且 为 下 游 的 每 个 Task 都 生成 一 个 单独 的 文件 。 这 样 解决 了 Shuffle 的 结果 都 需要 存 入 内 存 的 问题 ， 但 是 又 引入 了 另外 一 个 问 
ER: 生成 的 小 文件 过 多 ， 尤 其 在 每 个 文件 的 数据 量 不 大 而 文件 特别 多 的 时 候 ， 大 量 的 随机 读 会 严重 影响 性 能 。Spark 0.8.1 为 了 解决 0.8 中 引入 的 问题 ， 引 入 了 File 
Consolidation 机 制 ， 这 在 一 定 程度 上 解决 了 这 个 问题 。 由 此 可 见 ，Hash Based Shuffle 在 可 扩展 性 方面 的 确 有 局 限 性 。 而 Spark1.0 中 引入 的 Shuffle Pluggable 框 架 ， 为 
加 入 新 的 Shuffle 机 制 和 引入 第 三 方 的 Shuffle 机 制 黄 定 了 基础 。 在 Spark1.1 的 时 候 ， 引 入 了 sort Based Shuffle; 并 且 在 Spark1.2.0 时 ，Sort Based Shuffle 成 为 Shuffle 的 
默认 选项 。 但 是 ， 随 着 内 存 成 本 的 不 断 下 降 和 容量 的 不 断 上 升 ，Spark Core 会 在 未 来 重新 将 Shuffle 过 程 在 内 存 中 进行 吗 ? 我 认为 这 个 不 太 可 能 也 没 太 大 必要 ， 如 果 用 户 对 
于 性 能 有 比较 苛刻 的 要 求 而 Shuffle 的 过 程 的 确 是 性 能 优化 的 重点 时 ， 可 以 尝试 以 下 实现 方式 : 


1) Worker 的 节点 采用 固态 硬盘 。 


2) Woker 的 Shuffle 结 果 保 存 到 RAM Disk 上 。 


3) 根据 自己 的 应 用 场景 ， 实 现 自己 的 Shuffle 机 制 。 


我 们 知道 只 有 Parent stage 的 所 有 Task 都 完成 了 ， 下 游 的 Reducer Task 才 能 开始 执行 。 这 种 实现 逻辑 比较 简单 ， 但 是 会 影响 性 能 。 如 果 Reducer Task 可 以 提早 启动 而 
不 是 等 待 所 有 的 上 游 Shuffle Map Task 都 执行 完成 ， 是 不 是 性 能 会 更 好 ， 集 群 的 利用 率 会 更 高 ?更 进一步 ， 现 在 都 是 采用 Reducer Task 从 其 他 的 节点 上 拉 取 数据 (pull 
data) ， 如 果 采 用 推送 数据 (push data) 到 Reducer Task 呢 ? 


第 8 章 storage 模块 详解 


Storage 模 块 负责 管理 Spark 计 算 过 程 中 产生 的 数据 ， 包 括 基于 Disk 的 和 基于 Memory 的 。 用 户 在 实际 编程 中 ， 面 对 的 是 RDD， 可 以 将 RDD 的 数据 通过 调用 
org.apache.spark.rdd.RDD#cache 将 数据 持久 化 ;持久 化 的 动作 都 是 由 Storage 模 块 完成 的 ， 包 括 Shuffle 过 程 中 的 数据 ， 也 都 是 由 Storage 模 块 管理 的 。 可 以 说 ，RDD 实 
现 用 户 的 逻辑 ， 而 Storage 管 理 用 户 的 数据 。 在 Driver 端 和 Executor 端 ， 都 会 有 Storage 模 块 ， 那 么 它们 功能 的 共同 点 和 不 同 点 是 什么 ?本章 将 讲解 Storage 模 块 的 实现 。 


8.1 模块 整体 架构 


81.1 整体 架构 


Storage 模 块 采用 的 是 Master/Slave 的 架构 。Master 负 责 整 个 Application 的 Block 的 元 数据 信息 的 管理 和 维护 ; 而 Slave 需 要 将 Block 的 更 新 等 状态 上 报到 Master， 同 
时 接收 Master 的 命令 ， 比 如 删除 一 个 RDD、Shuffle 相 关 的 数据 或 者 是 广播 变量 。 而 Master 与 Slave 之 间 通 过 AKKA 消 息 传递 机 制 进行 通信 。 


在 SparkContext 创 建 时 ， 它 会 创建 Driver 端 的 SparkEnv， 而 SparkEnv 会 创建 BlockManager，BlockManager 创 建 的 时 候 会 持 有 一 个 BlockManagerMaster。 
BlockManagerMaster 会 把 请 求 转发 给 BlockManagerMasterActor 来 完成 元 数据 的 管理 和 维护 。 


而 在 Executor 端 ， 也 存在 一 个 BlockManager， 它 也 会 持 有 一 个 BlockManager-Master， 只 不 过 BlockManagerMaster 会 持 有 一 个 Driver 端 
BlockManagerMasterActor 的 Reference， 因 此 Executor 端 的 BlockManager 就 能 通过 这 个 Actor 的 Reference 将 Block 的 信息 上 报 给 Master。 


BlockManager 本 身 还 持 有 一 个 BlockManagerSlaveActor， 而 这 个 Slave 的 Actor 还 会 被 上 报到 Master。Master 会 持 有 这 个 Slave Actor 的 Reference， 并 通过 这 个 
Reference 向 Salve 发 送 一 些 命令 ， 比 如 删除 Slave 上 的 RDD、Shuffle 相 关 的 数据 或 者 是 广播 变量 。 上 面 说 的 这 些 关系 可 以 通过 图 8-1 来 表示 。 


图 8-1 并 没有 指出 Master 和 Slave 之 间 的 心跳 是 如 何 维持 的 ， 即 Master 如 何 知 道 Slave 是 否 已 经 下 线 呢 ? 实际 上 ，Master 和 Slave 之 间 并 没有 专门 的 心跳 ， 而 是 通过 
Driver 和 Executor 之 间 的 心跳 来 间接 完成 的 。 


Master 持 有 整个 Application 的 Block 的 元 数据 信息 ， 包 括 Block 所 在 的 位 置 ，Block 所 占 的 存储 空间 大 小 ( 含 三 种 类 别 : 内 存 、Disk 和 Tachyon) 。 这 些 信息 都 保存 在 
org.apache.spark.storage.BlockManagerMasterActor 的 三 个 数据 结构 中 : 


1) private val block Managerlnfo=new mutable.HashMap[BlockManagerld，BlockManagerlnfo]: 保存 了 BlockManagerld 到 BlockManagerlnfo 的 映射 。 
BlockManagerlnfo 保 存 了 Slave 节 点 的 内 存 使 用 情况 、Slave 上 的 Block 的 状态 、Slave 上 的 BlockManagerSlaveActor 的 Reference (Master 通 过 这 个 Reference 可 以 向 
Slave 发 送 命 令 和 查询 请 求 ) 。 


2) private val blockManagerldByExecutor=new mutable.HashMap[String, BlockManagerld]: 保存 了 Executor ID 到 BlockManagerld 的 映射 。 这 样 Master 就 
可 以 通过 Executor ID 快 速 查 找到 BlockManagerld。 


BlockManager BlockManager 


BlockManagerMasterActor Ref BlockManagerMasterActor Ref 


agerSlaveActor 


BlockManagerMasterActor 


BlockManagerSlaveActor Ref 


BlockManagerSlaveActor Ref 


» BlockManagerSlaveActor Ref 


BlockManagerSlaveActor Ref 


BlockManager "di BlockManager. — 


BlockManagerMasterActor Ref BlockManagerMasterActor Ref 


BlockManagerSlaveActor BlockManagerSlaveActor 


图 8-1 Storage 模块 架构 图 


3) private val blockLocations=new JHashMap[Blockld，mutable.Hashset[BlockManagerld]]: 保存 Block 是 在 哪些 BlockManager 上 的 Hash Map; 由 于 Block 
可 能 在 多 个 Slave 上 都 有 备份 ， 因 此 注意 Value 是 一 个 mutable.HashSet。 通 过 查询 blockLocations 就 可 以 找到 某 个 Block 所 在 的 物理 位 置 了 。 


那么 BlockManagerMasterActor 是 如 何 维护 和 管理 这 些 数据 结构 ， 进 而 实现 管理 整个 Application 的 Block 呢 ?实现 过 程 如 图 8-2 所 示 。 


Client Driver(Master) 


org.apache.spark.SparkConrext 


org.apache.spark.storage.BlockManagerMaster 


org.apache.spark.storge.BlockManagerMasterActor 


org.apache.spark.storage.Block org.apache.spark.storage.Block 
Manager Manager 


org.apache.spark.storage.Block org.apache.spark.storage.Block 
ManagerSlaveActor ManagerSlaveActor 


8-2 ”BlockManaget 的 注册 实现 逻辑 图 


BlockManger 在 创建 后 ， 需 要 向 BlockManagerMasterActor 发 送 消 息 RegisterBlock-Manager 进 行 注册 ， 具 体 实现 代码 在 


org.apache.spark.storage.Block Manager#initialize: 


master.registerBlockManager (blockManagerId, maxMemory, slaveActor) 


注册 的 信息 包括 blockManagerld (标识 了 Slave 的 Executor ID. HostnamesüPort) ， 节 点 的 最 大 可 用 内 存 数 ，BlockManagerSlaveActor。 
BlockManagerMasterActor 接 到 注册 请 求 后 ， 会 将 Slave 的 信息 保存 到 Master 端 


blockManagerIdByExecutor (id.executorId) = id 
blockManagerInfo(id) = new BlockManagerInfo( 
id, System.currentTimeMillis(), maxMemSize, slaveActor) 


8.2 ”存储 实现 详解 


8.21 存储 级 别 


存储 级 别 ， 对 用 户 来 说 是 RDD 相 关 的 持久 化 和 缓存 。 这 实际 上 也 Spark 最 重要 的 特征 之 一 。 在 每 个 节点 都 将 RDD 的 Partition 的 数据 保存 在 内 存 中 时 ， 后 续 的 计算 将 会 变 
得 非常 快 (通常 会 快 10 倍 以 上 ) 。 可 以 说 ,缓存 是 Spark 构 建 迭代 式 算法 和 快速 交互 式 查 询 的 关键 。 


用 户 可 以 直接 调用 persist () 或 者 cache () 来 标记 一 个 RDD 需 要 持久 化 。 实 际 上 ，cache () 是 使 用 默认 存储 级 别 的 快捷 方法 : 


/** Persist this RDD with the default storage level (‘MEMORY ONLY^). */ 
def persist(): this.type - persist(StorageLevel.MEMORY ONLY) 

/** Persist this RDD with the default storage level ("MEMORY ONLY^). */ 
def cache(): this.type - persist() 


前 面 也 介绍 过 ， 只 有 触发 了 一 个 Action 后 ， 计 算 才 会 提交 到 集群 开始 真正 的 运算 。 因 此 RDD 只 有 经 过 一 次 Action 后 ， 才 能 将 RDD 缓 存 到 内 存 中 以 供 以 后 的 计算 使 用 。 
这 个 缓存 也 有 容错 机 制 ， 如 果 某 个 缓存 丢失 了 ， 那 么 会 通过 原来 的 计算 过 程 进行 重 算 。 


如 果 用 户 有 特殊 需求 ， 可 以 调用 def persist (newLevel: StorageLevel) 来 设置 需要 的 存储 级 别 。 不 同 的 存储 级 别 ， 可 以 选择 持久 化 数据 到 Disk、Memory、 
Tachyon; 还 可 以 选择 数据 是 否 需要 序列 化 从 而 节省 空间 ;甚至 可 以 将 数据 远程 复制 到 其 他 节点 。 


1. 存 储 级 别 的 定义 


RDD 的 Partition 和 storage 模块 的 Block 是 一 一 对 应 的 关系 。 表 8-1 列 出 了 storage 模块 支持 的 存储 级 别 。 为 了 和 官网 保持 一 致 ， 在 介绍 存储 级 别 相关 的 含义 时 ， 都 使 用 


了 Partition 而 不 是 Block。 


存储 级 别 
NONE 


DISK ONLY 


MEMORY ONLY 
MEMORY ONLY SER 


MEMORY AND DISK 


MEMORY AND DISK SER 


DISK ONLY 2 
MEMORY ONLY 2 
MEMORY ONLY SER 2 
MEMORY AND DISK 2 
MEMORY AND DISK SER 2 


存储 级 别 


OFF HEAP(experimental) 


表 8-1 Storage 模 块 支持 的 存储 级 别 


意 х 
Дх 会 保 {TAE 何 数据 
直接 将 RDD 的 Partition 保存 在 该 节点 的 Disk 上 


将 RDD 的 Partition 对 应 的 原生 的 Java Object 保存 在 JVM 中 。 如 果 
RDD 太 大 导致 它 的 部 分 Partition 不 能 存储 在 内 存 中 ,那么 这 些 Partition 
将 不 会 被 缓存 ， 并 且 在 需要 的 时 候 被 重新 计算 。 这 是 默认 的 级 别 

将 RDD 的 Partition 序列 化 后 的 对 象 (每 一 个 Partition s -个 字 节 
数组 ) 存储 在 JVM 中。 通常 来 说 ， 这 же [КИЛ end fil 
用 率 更 高 ， 尤 其 当 在 使 用 fast serializer (快速 序列 化 ) ^ 但 在 读 取 时 
由 于 需要 反 序 列 化 会 比较 占用 CPU 

将 RDD 的 Partition 反 序列 化 后 的 对 象 存储 在 JVM 中 。 如 果 RDD Ж 
大 导致 它 的 部 分 Partition 不 能 存储 在 内 存 中 ， 超 出 的 partition 将 被 保存 
在 Disk 上 上， 并且 在 需要 时 读 取 

与 MEMORY ОМІҮ ЅЕК 类 似 ， 但 是 会 把 超出 内 存 的 Partition 存储 
在 Disk 上 而 不 是 在 每 次 需要 的 时 候 重 新 计算 


同上 述 的 存储 级 别 。 不 同 就 是 在 其 他 的 节点 上 会 保存 一 个 相同 的 备 
份 。 从 集群 的 角度 看 ， 一 共有 两 个 备份 


m 
AT 


ж X 


将 RDD 的 Partition 序列 化 后 存储 在 Tachyon 中 。 相 比 MEMORY _ 
ONLY SER, OFF HEAP 有 几 个 优势 : 
1) 减少 了 GC 带 来 的 性 能 损耗 
2 ) 使 得 Executor 内 fF BOR ] 更 加 轻 量 级 
3) 在 集群 的 角度 共享 一 个 内 存 池 ， 非 常 有 利于 对 内 存 有 超大 需求 的 
i 而 且 使 得 在 过 个 Executor 中 间 共 享 内 存 数据 成 为 可 能 


读者 可 以 通过 http://spark.apache.org/docs/latest/programming-guide.html#rdd-persistence 来 获取 最 新 的 关于 存储 级 别 的 说 明 。 


实际 上 ， 上 述 的 存储 级 别 是 通过 org.apache.spark.storage.SstorageLevel 定 义 的 。 


object StorageLevel { 
va. 


1 NONE = new StorageLevel(false, false, false, false) 
val DISK ONLY = new StorageLevel (true, false, false, false) 
val DISK ONLY 2 = new StorageLevel(true, false, false, false, 2) 


val MEMORY ONLY = new StorageLevel (false, true, false, true) 

val MEMORY ONLY 2 - new StorageLevel(false, true, false, true, 2) 

val MEMORY ONLY SER = new StorageLevel(false, true, false, false) 

val MEMORY ONLY SER 2 - new StorageLevel(false, true, false, false, 2) 
val MEMORY AND DISK = new StorageLevel(true, true, false, true) 

val MEMORY AND DISK 2 = new StorageLevel(true, true, false, true, 2) 

val MEMORY AND DISK SER = new StorageLevel(true, true, false, false) 

val MEMORY AND DISK SER 2 - new StorageLevel(true, true, false, false, 2) 
val OFF HEAP = new StorageLevel (false, false, true, false) 


各 个 参数 的 含义 可 以 参见 : 


class StorageLevel private( 
private var useDisk: Boolean, 
private var  useMemory: Boolean, 
private var  useOffHeap: Boolean, 


private var deserialized: Boolean, 
private var replication: Int - 1) 


2. 选 择 合适 的 存储 级 别 
Spark 不 同 的 存储 级 别 是 内 存 使 用 和 CPU 效 率 的 折 中 。Spark 官 网 建议 按照 以 下 步骤 来 选择 合适 的 存储 级 别 : 
Т) 如 果 你 的 RDD 可 以 和 默认 的 存储 级 别 有 很 好 的 契合 ， 那 么 就 无 需 任 何 特殊 的 设 定 了 。 默 认 的 存储 级 别 是 CPU 最 高 效 的 选项 ， 也 是 运算 能 够 最 快 完成 的 选项 。 


2) 如 果 不 行 ， 那 么 需要 减少 内 存 的 使 用 ， 可 以 使 用 MEMORY_ONLY_SER。 这 时 候 需 要 选择 一 个 合适 的 序列 化 方案 ， 可 以 参 
考 http://spark.apache.org/docs/latest/tuning.html#data-serialization。 需 要 在 空间 效率 和 反 序 列 化 时 所 需要 的 CPU 中 做 一 个 合适 的 选择 。 


з) 尽量 不 要 落 到 硬盘 上 ， 除 非 是 计算 逻辑 非常 复杂 ， 或 者 是 需要 从 一 个 超大 规模 的 数据 集 过 滤 出 一 小 部 分 数据 。 否 则 重新 计算 一 个 Partition 的 速度 可 能 和 从 硬盘 读 差 
不 多 (考虑 到 出 错 的 概率 和 写 硬 盘 的 开销 ， 因 此 采用 失败 重 算 要 比 读 硬 盘 持 久 化 的 数据 要 好 ) 。 


4) 如 果 你 需要 故障 的 快速 恢复 能 力 (比如 使 用 Spark 来 处 理 Web 的 请 求 ) ， 那 么 可 以 考虑 使 用 存储 级 别 的 多 副本 机 制 。 实 际 上 所 有 的 存储 级 别 都 提供 了 Partition 数 据 
丢失 时 的 重 算 机 制 ， 只 不 过 有 备份 的 话 可 以 让 Application 直 接 使 用 副本 而 无 须 等 待 重新 计算 丢失 的 Partition 数 据 。 


5) 如 果 集 群 有 大 量 的 内 存 或 者 有 很 多 的 运行 任务 ， 则 选择 OFF_HEAP。 现 在 处 于 试验 阶段 的 OFF_HEAP 有 以 下 的 优势 : 
а) 它 使 得 多 个 Executor 可 以 共享 一 个 内 存 池 。 
b) 它 显著 地 减少 了 GC 的 开销 。 


c) 缓存 在 内 存 中 的 数据 即使 是 产生 它 的 Executor 异 常 退 出 了 也 不 会 丢失 。 


8.3 性 能 调 优 


8.3.1 spark.local.dir 


这 个 目录 用 于 写 中 间 数 据 ， 如 RDD Cache、Shuffle 时 存储 数据 的 位 置 ， 在 8.2.3 节 已 经 详细 介绍 了 它 的 使 用 方式 ， 那 么 ， 设 置 该 目录 时 需要 注意 什么 呢 ? 


首先 ， 最 基本 的 是 我 们 可 以 配置 多 个 路 径 (用 逗号 分 隔 ) 到 多 个 磁盘 上 增加 整体 IO 带 宽 。 


其 次 ， 在 8.2.3 小 节 中 也 提 到 过 ， 一 个 逻辑 的 Block 会 根据 它 的 blockld 生 成 的 名 字 映 射 到 一 个 物理 上 的 文件 。 这 些 物理 文件 会 被 hash 到 由 spark.local.dir (或 者 
SPARK LOCAL DIRS) 设置 的 目录 中 。 因 此 ， 如 果 存 储 设备 的 读 写 速度 不 一 样 ， 那 么 可 以 在 较 快 的 存储 设备 上 配置 更 多 的 目录 来 增加 它 被 使 用 的 比例 ， 从 而 更 好 地 利用 快 
速 存储 设备 。 在 Spark 能 够 感知 具体 的 存储 设备 类 型 前 ， 这 个 变通 方法 可 以 取得 一 个 不 错 的 效果 。 


此 外 ， 还 需要 注意 的 是 ， 在 Spark 1.0 以 后 ，SPARK_LOCAL DIRS (Standalone, Mesos) 或 者 LOCAL DIRS (YARN) 参数 会 覆盖 这 个 配置 。 比 如 YARN 模 式 的 时 
候 ，Spark Executor 的 本 地 路 径 依赖 于 YARN 的 配置 ， 而 不 取决 于 这 个 参数 。 


84 人 小结 


Storage 模 块 负责 管理 Sparki 计 算 过 程 中 产生 的 数据 ， 包 括 基于 Disk 和 基于 Memory 的 数据 。 用 户 在 实际 编程 中 ， 面 对 的 是 RDD， 可 以 将 RDD 的 数据 通过 调用 
org.apache.spark.rdd.RDD#cache 将 数据 持久 化 ; 持久 化 的 动作 都 是 由 storage 模块 完成 的 。 包 括 Shuffle 过 程 中 的 数据 ， 也 都 是 由 Storage 模 块 管理 的 。 可 以 说 ，RDD 实 
现 了 用 户 的 逻辑 ， 而 storage 管理 了 用 户 的 数据 。 


本 章 首先 给 出 了 Storage 模 块 的 整体 架构 ， 通 过 对 Master 端 ( 即 Driver 端 ) 和 slave 端 ( 即 Executor 端 ) 的 消息 梳理 ， 分 析 其 在 Driver 端 和 Executor 端 的 不 同 实现 ， 其 


中 着 重 分 析 了 DiskStore、Memorystore 和 Tachyonstore 的 实现 。 最 后 通过 对 用 户 可 以 配置 参数 的 详细 介绍 ， 解 析 了 这 些 参数 的 实际 作用 ， 为 用 户 在 实际 应 用 环境 中 的 性 
能 调 优 提供 理论 支撑 。 


第 9 章 ”企业 应 用 概述 


9.1 Spark 在 百度 


百度 构建 了 国内 规模 最 大 的 Spark 集 群 之 一 : 实际 生产 环境 ， 最 大 单 集 群 规模 1300 台 (包含 数 万 核心 和 上 百 TB 内 存 ) ， 公 司 内 部 同时 还 运行 着 大 量 的 小 型 Spark 集 群 。 
百度 分 布 式 计算 团队 从 2011 年 开始 持续 关注 Spark， 并 于 2014 年 将 Spark 正 式 引 入 百度 分 布 式 计算 生态 系统 中 ， 在 国内 率先 面向 开发 者 及 企业 用 户 推出 了 支持 Spark 并 兼容 


开源 接口 的 大 数据 处 理 产品 BMR。 
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9.2 Spark 在 阿里 


阿里 也 是 国内 最 早 使 用 Spark 的 公司 之 一 ， 同 时 也 是 最 早 在 Spark 中 使 用 了 YARN 的 公司 之 一 。 


值得 一 提 的 是 ， 淘 宝 网 络 数据 挖 所 和 计算 团队 负责 人 明 风 先 生 也 是 国内 著名 的 Spark 方 面 的 专家 。 明 风 和 他 的 团队 针对 淘宝 的 大 数据 和 应 用 场景 ， 在 MLlib、GraphX 和 
streaming 三 大 块 进行 了 广泛 的 模型 训练 和 生产 应 用 ， 并 且 取 得 了 很 好 的 效果 。 


尤其 是 他 们 利用 GraphX 构 建 了 大 规模 的 图 计算 和 图 挖掘 系统 ， 实 现 了 很 多 生产 环境 中 的 推荐 算法 ， 包 括 (但 不 局 限于 ) 以 下 的 计算 场景 : 基于 度 分 布 的 中 枢 节 点 发 
现 、 基 于 最 大 连通 图 的 社区 发 现 、 基 于 三 角形 计数 的 关系 衡量 、 基 于 随机 游 走 的 用 户 属性 传播 等 。 可 以 说 ， 淘 宝 技 术 团 队 在 利用 Spark 来 解决 多 次 迭代 的 机 器 学 习 算法 、 高 
计算 复杂 度 的 算法 方面 ， 在 国内 居于 领先 的 位 置 。 


此 外 ， 阿 里 积极 拥抱 并 回馈 开源 社区 ， 对 Spark 社 区 的 各 个 Feature 和 PR 选择 性 地 进行 跟 进 和 贡献 。 同 时 ， 阿 里 的 内 部 版 本 和 社区 版 本 也 保持 同步 性 和 一 致 性 。 阿 里 也 
在 积极 打造 Spark 周 边 的 生产 环境 ,包括 MLStudio 调 度 平台 ， 使 得 Spark 在 阿里 巴巴 的 应 用 更 具 推 广 性 ， 可 以 满足 大 部 分 算法 工程 师 和 数据 科学 家 的 需求 。 


9.3 Spark 在 腾讯 


腾讯 Spark 集 群 已 经 达到 8000 台 的 规模 ， 是 当前 已 知 的 最 大 的 Spark 集 群 。 每 天 运行 了 超过 10000 个 作业 ， 作 业 类 型 包括 ETL、SparkSQL、 机 器 学 习 、 图 计算 和 流 式 计 
算 。 


腾讯 的 广 点 通 是 最 早 使 用 Spark 的 应 用 之 一 。 腾 讯 大 数据 精准 推荐 借助 Spark 快 速 迭代 的 优势 ， 围 绕 “数据 + 算法 + 系统 ”这 套 技术 方案 ,实现 了 在 “数据 实时 采集 、 
算法 实时 训练 、 系 统 实 时 预测 ”的 全 流程 实时 并 行 高 维 算法 ， 最 终 成 功 应 用 于 广 点 通 pCTR 投 放 系统 上 ， 支 持 每 天 上 百 亿 的 请 求 量 。 基 于 日 志 数 据 的 快速 查询 系统 业务 构建 
于 Spark 之 上 的 Shark， 利 用 其 快速 查询 以 及 内 存 表 等 优势 ， 承 担 了 日 志 数据 的 实时 查询 工作 。 在 性 能 方面 ， 普 遍 比 Hive 高 2~10 倍 ， 如 果 使 用 内 存 表 的 功能 ， 性 能 将 会 比 


Hive 高 百倍 。 


此 外 ， 腾 讯 使 用 干 台 规模 的 Spark 集 群 来 对 干 亿 量 级 的 节点 对 进行 相似 度 计 算 ， 通 过 实验 对 比 ， 性 能 是 MapReduce 的 6 倍 以 上 ， 是 GraphX 的 2 倍 以 上 。 相 似 度 计算 在 信 
息 检 索 、 数 据 挖 掘 等 领域 有 着 广泛 的 应 用 ， 是 目前 推荐 引擎 中 的 重要 组 成 部 分 。 随 着 互联 网 用 户 数目 和 内 容 的 爆炸 性 增长 ， 对 大 规模 数据 进行 相似 度 计算 的 需求 变 得 日 益 增 


强 。 在 传统 的 MapReduce 框 架 下 进行 相似 度 计算 会 引入 大 量 的 网 络 开销 ， 导 致 性 能 低下 。 腾 讯 借 助 Spark 对 内 存 计算 的 支持 以 及 图 划分 的 思想 ， 大 大 降低 了 网 络 数据 传输 
Е; 并 通过 在 系统 层次 对 Spark 的 改进 优化 ， 使 其 可 以 稳定 地 扩展 至 上 干 台 规模 。 


9.4 小 结 


Spark 在 国内 的 应 用 越 来 越 广泛 ， 除 了 上 面 提 到 的 百度 、 阿 里 和 腾讯 ， 现 在 京东 、 优 酷 士 豆 、 携 程 等 互联 网 公司 也 在 使 用 Spark。 除 了 Spark 的 使 用 ， 华 为 、 星 环 科 技 等 
公司 也 在 做 基于 Spark 的 商业 解决 方案 ， 尤 其 是 星 环 科 技 ， 基 于 Spark 做 了 很 多 二 次 开发 。 除 此 之 外 ， 英 特 尔 上 海 有 超过 10 个 人 的 团队 在 做 Spark 的 开发 ， 是 Spark 非 常 重要 
的 贡献 者 。 


